open
Skip Ribbon Commands
Skip to main content
av Arne Jørgensen, CTO

Relevanssøk - avansert søk med tekstgjenkjenning

En god søkemotor handler om én grunnleggende ting - å finne relevant informasjon. Dette innebærer to utfordringer. For det første må den finne informasjonen brukeren ser etter, og for det andre må den gjøre informasjonen tilgjengelig for brukeren.

Tradisjonelle søk har noen vesentlige begrensninger, som spesielt får konsekvenser for bedriftsinterne søk. For å illustrere dette, la oss ta utgangspunkt i det mest alminnelige søket av alt - Google. Når vi skriver inn et søkeord eller to i Google får vi ofte et svært stort antall treff, gjerne over en million.

Det første problemet ligger i hvordan disse treffene blir presentert for oss - i hvilken rekkefølge de blir vist. Sorteringen baseres i stor grad på ting som indikerer en sides popularitet, dvs. hvor mange sider som linker til denne siden, hvor mye trafikk det er på serveren denne siden befinner seg på osv. Dette gir mening i en Internett-sammenheng, men fungerer dårlig internt i en bedrift, hvor informasjonen vi leter etter kanskje finnes i en e-post eller i et dokument på en filserver. Det hjelper lite med et stort antall treff dersom de vises i en uhensiktsmessig rekkefølge - ingen orker bla seg gjennom en million treff.

Det andre problemet ligger i selve søkeresultatet. Når vi får et stort antall treff nøyer vi oss som regel med å se på første treffside, kanskje andre side - sjelden lengre. Dersom vi ikke finner det vi er ute etter, legger vi gjerne til et nytt ord og søker på nytt og får kanskje et par hundre tusen treff, og forsøker med et søkeord til, i et forsøk på å få antall treff ned til et mer håndterlig antall. Den store svakheten med dette, er at hver gang vi legger til et søkeord - dersom vi ikke er 100% sikre på at søkeordet vi legger til finnes i dokumentet eller siden vi leter etter - så risikerer vi at vi filtrerer bort nettopp det vi er på jakt etter.

IntelliSearch Relevanssøk møter disse utfordringene ved å snu selve problemstillingen opp ned. Med Relevanssøket fjernes ikke potensielt interessante dokumenter selv om ett eller flere av søkeordene ikke er tilstede. Samtidig sørger det for at de beste treffene sorteres først.

Nøkkelen til dette ligger i en intelligent kombinasjon av utvalg og prioritering. Når bedriftens dokumenter er indeksert og gjort tilgjengelig for søk, kjenner søkemotoren alle ord som er brukt, hvor ofte de forekommer, og i hvilke dokumenter de finnes. Dette gjør at søkemotoren er i stand til å vurdere dokumentenes relevans i forhold til søkeordene. Vanlige ord, som "og", "jeg", "ikke" osv. forekommer typisk i mange dokumenter, og sier i realiteten svært lite om et dokument, mens kundenavn, fagtermer osv. er mer interessante. Søkemotoren bruker så denne kunnskapen til å sortere søkeresultatet etter hvor mange ord man får treff på og hvor spesifikke disse er, slik at de mest relevante dokumentene gis prioritet og vises først til brukeren.

Dette gjør at man kan søke ved f.eks. å lime inn et avsnitt fra et dokument og finne de beste dokumentene ut fra dette. Det gjør det også mulig å søke ved å bruke naturlig språk, slik at brukerne kan skrive inn vanlige setninger og få meningsfylte resultater tilbake, noe som eksempelvis kan være svært nyttig å tilby besøkende på firmaets nettsider.