Introduktion

Mulighederne er mange, når man ønsker information. Man kan abonnere på relevante tidsskrifter, aviser eller publikationer på Internettet m.v. Uanset hvilket medie man beskæftiger sig med, er det svært at følge med i det hele, da det er meget tidskrævende. Konsekvensen af dette har været, at firmaer er opstået med det ene formål, at søge relevante informationer i nyhedsmedier eller andre vidensdatabaser for enkeltpersoner eller virksomheder.

Digitaliseringen af medierne åbner nye muligheder for at lade computere overtage denne proces, og det er et delproblem ansporet af denne problematik, som vil være det centrale i dette projekt.

I første omgang kan man stille spørgsmålene: Hvad kræver det at søge informationer på Internettet? Vi bruger alle søgemaskiner i vores daglige færden rundt på Internettet, men hvilke processer gør det muligt at finde de informationer, vi har behov for, samtidig med at vi forsøger at undgå dem vi ikke ønsker?

Abstrakt

Formålet med projektet er, at undersøge om man opnår bedre automatisk indeksering af HTML-dokumentet, hvis man medtager den information, der ligger i formateringen, i stedet for bare at indeksere alt tekst som brødtekst.

For at undersøge dette har vi dels lavet nogle funktioner, der kan overføre dokumenterne med formatering fra Word, som vi brugte som parser af HTML-koden, til Access, som vi brugte til databehandling og dels nogle forespørgsler, der kan udtrække de relevante data fra vores tabeller. Fandt vi, at indekseringen ved anvendelse af formateringen gav bedre resultater end den uden, ønskede vi også at bestemme, hvor stor relevans formateringen skulle have for indekseringen, før denne blev optimalt.

Vi kan konkludere, at det giver en tendens til bedre indeksering, hvis man bruger formateringen som hjælpemiddel til at bestemme ordenes indbyrdes vægtning. Det er dog ikke altid, at det giver en mærkbar forbedring i forhold til indeksering af renteksten. Vi må desværre konkludere, at vi ikke fundet bedste måde at vægte formateringen på, da ingen klar tendens viser sig her. En bedre bestemmelse vil desuden kræve et meget større forsøgsmateriale.

English Title : Indexing - An easy way to optimize today's indexing methods.

Download

Projekt:
Selve projektet (i pdf-format) 888 KB

Note: Just updated the homepage. Wait for more information :)

Subpages