8.Sökteknik

Nedanstående är ett kapitel som kommer ifrån boken Effektivare informationssökning på webben (2007) och som i vissa delar har uppdaterats.

Välja sökord

Bra och dåliga sökord

Vid användning av sökmotorer är framdestilleringen av bra sökord ofta nyckeln till en lyckad sökning.

Bra sökord är

  • Unika eller ovanliga
  • Specifika och otvetydiga
  • Korrekt stavade
  • Ord som beskriver viktiga delar av frågan

Dåliga sökord är

  • Stoppord (ord som inte är med i sökmotorns index på grund av att de är för vanliga)
  • De flesta verb och prepositioner
  • Felstavade
  • Ord som är vanliga
  • Tvetydiga

Sök på fraser istället för ett eller flera ord, och använd citationstecken kring frasen som indikation för sökmotorn.

Beskriv frågan med synonymer och med flera koncept. Det begränsar inte frågan, utan fokuserar den.

Bästa orden först

Sätt de bästa orden först när du söker i en sökmotor. I vissa söktjänster tas större hänsyn till de första termerna. Och sätt relaterade ord jämte varandra, ibland inverkar det på relevansberäkningen. Ibland kan det löna sig att ändra ordens placering i sökfrågan.

Tänk som en webbsida

Välj inte sökord som representerar ditt ämne – välj istället sökord som du tror dyker upp på sidor som är relevanta för din sökning.

Utvärdera och sök på nytt

Utvärdera söksträngen snabbt. Om inte nr 1-10 i träfflistan är relevanta varför skulle då nr 25 vara det? Ändra sökorden och sök på nytt istället för att titta på alla de första 30 träffarna.

Ta bort oönskade aspekter

Om ett sökord har flera innebörder och sökresultatet blir oprecist kan man ta bort oönskade aspekter. På sökmotorernas sidor för avancerad sökning kan man ofta välja “utan dessa ord” eller något liknande, vilket innebär att ordet inte får förekomma på sidorna i träfflistan. Alternativt kan man skriva in ett minustecken före sökordet i den vanliga sökrutan, t.ex. -saab.

Sökordsförslag

Ask och Yahoo! ger förslag på sökningar när man börjar skriva in ord i sökrutan. Det är en bra hjälp för att precisera sökningar i realtid. Även i webbläsaren Firefox sökruta ges sökordsförslag.

Fig. Ask.com ger sökordsförslag.

I Yahoo! och i Firefox fungerar det med svenska sökord, men i Ask fungerar sökordsförslagen bara på engelska.

Vad söker andra på just nu?

Flera söktjänster har funktioner där du kan se vad andra söker på just nu:

  • Eniro Spanaren – www.eniro.se/spanaren/
  • Spray Fluktaren – http://lycos.spray.se/fluktaren.html
  • MetaCrawler (filtrerad) – www.metaspy.com/info.metac.spy/metaspy/filtered.htm
  • MetaCrawler (ofiltrerad) – www.metaspy.com/ info.metac.spy/metaspy/unfiltered.htm
  • Seekport Liveseek – www.seekport.co.uk/q?liveseek

Frassökning

En fras är en grupp ord som måste stå jämte varandra i en viss ordning. De flesta sökmotorer använder citattecken (” ”) för att markera en fras, t.ex. ”osynliga webben”. Används för att specificera en sökning.

På engelska skrivs inte sammansatta uttryck ihop på samman sätt som i svenska. Växthuseffekt blir greenhouse effect och informationssökningsbeteende blir information seeking behaviour, därför är det viktigare vid sökningar på t.ex. engelska att använda frassökning.

Var försiktig med att söka på fraser

Frassökning kan vara ett bra sätt att begränsa sökningar men bör endast användas för ord som normalt står jämte varandra, t.ex. “föreningen för informationsspecialister” (namn på en förening). Till och med egennamn kan vara problematiskt. En sökning på “george bush” skulle missa referenser till George W Bush.

Enkel och avancerad sökning

De flesta sökmotorer och databaser har något som de kallar enkel sökning på startsidan. I en sökruta fyller man i sina sökord. I sökrutan kan man även skriva in söktjänstens speciella söksyntax, kommandon som specificerar och begränsar. Men de flesta av söktjänsternas specialfunktioner når man lättare genom att söka på sidan för avancerad sökning. Den enkla sökningen har sina fördelar och är effektiv när man vet vad man söker efter, t.ex. en specifik webbplats.

Nästan alla sökmotorer och databaser har ett formulär med fler val än den enkla sökningen. Det kan kallas avancerad sökning, expertsökning eller utökad sökning. Men du behöver inte vara expert för att söka i den avancerade sökningen, tvärtom. I den avancerade sökningen är ofta många av söktjänstens möjligheter uppspaltade på ett enkelt sätt. På så sätt får man ofta ledtrådar till hur man kan förbättra sin sökning.

På sökmotorernas sidor för avancerad sökning finns ofta formulär för sökning med boolesk logik (beskrivs i nästa avsnitt). Nedan visas Googles sida, men de andras sidor är snarlika.

Fig. Sidan för avancerad sökning i Google

På Googles sida under rubriken ”Hitta sidor” finns fyra möjligheter:

  • Med alla dessa ord – en AND-sökning, OCH placeras mellan orden som skrivs in här.
  • Med den exakta frasen – orden som skrivs in hanteras som en fras, citattecken behövs inte.
  • Med något av dessa ord – en OR-sökning, ELLER placeras mellan orden som skrivs in här.
  • Utan dessa ord – en NOT-sökning, ordet som skrivs in återfinns inte i träffarna.

Sökmöjligheterna är lätta att kombinera, men var försiktig. Om alla möjligheterna används är det lätt att göra väldigt specifika sökningar, kanske så specifika att träfflistan bara består av någon enstaka träff.

Boolesk logik

Internet kan ses som en stor databas och därför måste sökningar efter innehållet följa reglerna för datorbaserad datasökning. Datorer arbetar med ettor och nollor, ja och nej. Vid en sökning med boolesk logik ställer du upp villkor som ska uppfyllas i sökningen. Alla sökmotorer använder boolesk logik vid sökfrågeformuleringen, men på lite olika sätt. Försäkra dig att du förstår de olika operatorerna: OCH, ELLER och INTE.

Sökmotorer brukar ha en förinställd booleskoperator. Det betyder att mellanrummet mellan de inskrivna sökorden antingen betyder ELLER (OR) eller OCH (AND). Nu för tiden är det vanligtvis OCH som är förinställt, men titta i hjälptexterna för säkerhetsskull. I sökmotorernas barndom var ELLER vanligt som förval för att man som sökare skulle få upp fler träffar.

Det finns tre grundläggande operatorer i boolesk logik: OCH, ELLER och INTE. Oftast skrivs de på engelska: AND, OR eller NOT. Med hjälp av operatorerna kombineras sökord till mer specifika sökningar.

Fig. De tre booleska operatorerna

I figuren ovan är de mörkare fälten det som återvinns genom de olika sökningarna.

OCH (AND)

Sökfråga: Jag är intresserad av förhållandet mellan arbete och stress.

Genom en OCH-sökning krävs det att båda (alla om det är flera) sökorden återfinns i dokumentet för att de ska hamna i träfflistan.

A OCH B – Vid användandet av OCH (engelska AND) så krävs att träffen innehåller både ord A och ord B.

Exempel i Google (endast sidor på svenska)

arbete: 2,5 miljoner träffar
stress: 1,5 miljoner träffar
arbete AND stress: 1,0 miljoner träffar

Ju fler ord man kombinerar i en OCH-sökning, desto färre dokument återfinns, eftersom vart och ett av dokumenten ska innehålla alla sökorden. Genom att lägga till ytterligare ett ord i OCH-sökningen preciseras sökningen ytterligare.

arbete AND stress AND sjukskrivning: 95 000 träffar

ELLER (OR)

A ELLER B – Vid användandet av ELLER (engelska OR) så krävs att träffen innehåller minst ett av orden A och B.

Sökfråga: Jag vill ha information om högskolan.

I Sverige används både högskola och universitet som begrepp för högre utbildning. Sökningen ska ge träff på minst ett av begreppen och därför används ELLER.

Exempel i Yahoo! (endast träffar på svenska)

högskola 2,2 miljoner
universitet 5,4 miljoner
högskola OR universitet 6,1 miljoner

En sökning på högskola OR universitet ger träffar som innehåller högskola eller universitet. De två cirklarnas överlapp är de dokument som innehåller båda termerna (och som återfinns vid en OCH-sökning).

ELLER används främst för synonymer eller likartade begrepp. Ju fler ord som används i en ELLER-sökning desto fler träffar återfinns. Sökningen blir bredare.

INTE (NOT)

A NOT B – Vid användandet av NOT (svenska INTE) så krävs att träffen innehåller ordet A men inte ordet B.

Sökfråga: Jag vill ha information om hundar, men inget om katter.

Endast dokument där hund finns med, men inte katt, återfinns. Förekommer både hund och katt kommer inte träffen med i träfflistan. Var därför försiktig med den här typen av sökningar, viktiga dokument eller centrala resurser kan lätt exkluderas.

Exempel i Google

hund 2,2 miljoner
katt 1,7 miljoner
hund NOT katt 1,3 miljoner (eg. hund -katt, se nedan)

Sökningen ovan ger träffar som innehåller hund men inte innehåller katt.

Kombinera operatorerna

Operatorerna kan utnyttjas tillsammans med frassökning och parenteser. Ett exempel:

(universitet OR högskola) AND ”södra sverige” NOT lund

Söksträngen ger träffar som innehåller universitet eller högskola tillsammans med södra sverige (en fras). Ingen träff innehåller lund. Givetvis kan relevant material bli bortsorterat för att det innehåller ordet lund, men vid en större mängd träffar kanske inte det spelar någon roll. Parenteserna bestämmer i vilken ordning uttrycken söks. Operatorerna arbetar först inom en parentes, och därefter på hela uttrycket (eller nästa parentes om det finns flera).

Boolesk logik i praktiken

Det finns flera olika sätt att använda de booleska operatorerna på vid sökning på Internet. I en sökmotor kan operatorerna användas på tre sätt, men alla sökmotorer stödjer inte alla sorters användning.

  • Full boolesk logik med operatorerna.
  • Tillämpad boolesk logik vid sökning (enkel sökning).
  • Förutbestämt sökspråk i formulär (avancerad sökning).

Full boolesk logik med operatorerna

I många sökmotorer kan man söka med hjälp av de logiska operatorerna, t.ex.

kattmat AND senior

Se Boolesk logik tidigare i kapitlet för fler exempel.

Tillämpad boolesk logik vid enkel sökning

Vid en enkel sökning med flera ord i sökmotorns enkla sökruta sker oftast en OCH-sökning. I sökmotorernas (och webbens) barndom var ELLER förvalt för att öka antalet träffar. Idag är OCH förvalt i alla stora sökmotorer för att ge bättre precision och för att man inte ska drunkna i träffar.

Vanligtvis kan man använda + (plus) och – (minus) i de enkla sökningen. + fungerar som ett OCH och kan tvinga med s.k. stoppord, ord som sökmotorn annars utesluter. Att skriva + före varje ord behövs normalt inte eftersom OCH är den förvalda operatorn mellan orden. – används som INTE, dvs. för att utesluta ord från sökningen. T.ex.:

ronneby brunnsparken –brunnshotellet

Vill man använda ELLER är man tvungen att använda den fulla booleska logiken eller formuläret i avancerad sökning.

Förutbestämt sökspråk i formulär

Många sökmotorer har en sida som kallas för “avancerad sökning” eller något liknande. Sidan är oftast inte speciellt avancerad, utan erbjuder den booleska logiken tillsammans med andra sök-begränsningar på ett enkelt sätt. Vanligtvis beskrivs operatorerna med vanligt språk. Nedan följer exempel från olika sökmotorer:

OCH
hitta sidor med ALLA dessa ord
visa resultat med ALLA dessa ord

ELLER
hitta sidor med NÅGOT av dessa ord
visa reslutat med VILKET SOM HELST av dessa ord

INTE
hitta sidor UTAN dessa ord
visa reslutat med INGA av dessa ord

Live Search har ingen vanlig sida för “avancerad sökning”. När man sökt och fått upp träfflistan kan man välja “alternativ” eller “avancerat” för sökbegränsningar.

Sökorden – konstanter eller variabler?

De valda sökorden kan ses som konstanter eller variabler i sökningen beroende på vilken boolesk operator som sätts före sökordet. OCH (AND) och INTE (NOT) gör att sökordet fungerar som en konstant, ordet måste finnas med respektive får inte finnas med. ELLER (OR) däremot gör sökordet till en variabel, ordet eller dess alternativ ska finnas med men inte båda.

Fältsökning

De flesta webbsidor består av mer än bara text. (Se inledningen för grundläggande HTML.) Dessa olika delar, som kallas fält, är sökbara. I en sökmotor kan det se ut så här:

  • domain:lu.se
  • title:informationssökning (ord i sidans titeltagg)
  • link:www.lu.se (de sidor som länkar till www.lu.se)
  • inurl:guide (ordet ska finnas i URL:en)

Fältsökning är ett viktigt sätt att begränsa en sökning i en sökmotor med miljontals dokument. Exempel: title:medeltiden (i Google intitle:medeltiden) ger fler relevanta träffar än en sökning på bara medeltiden. Men många relevanta sidor missas eftersom långt ifrån alla sidor om medeltiden har medeltiden i titeln.

Sök i webbadressen

Sök i URL:en för att avgränsa sökningen. I sökmotorerna kan man vanligtvis söka efter sökorden i URL:en (webbadressen) eftersom stora delar av URL:en är (kan vara) meningsbärande.

Anatomin hos en URL:

http://sv.wikipedia.org/wiki/Medeltiden

  1. protokoll: http
  2. webbserverns namn: sv (ofta www)
  3. domännamn: wikipedia
  4. toppdomännamn: org
  5. katalognamn: wiki
  6. filnamn: Medeltiden

Speciellt det två sista, katalogens namn och filens namn, innehåller ofta ämnesord. Men även domännamnet är intressant att söka efter, om man är på jakt efter en organisation eller ett märke.

Exempel: url:medeltiden/inurl:medeltiden ger sidor som innehåller ordet medeltiden på något ställe i webbadressen.

Webbplatssök

För att finna en sida inom en webbplats eller domän kan du söka med begränsningen site:. Då söker du på domännamn eller toppdomän, t.ex. svt.se eller volvo.com. För att hitta information om Bolibompa på SVT, så sök på site:svt.se bolibompa, vilket begränsar sökning efter bolibompa till svt.se. När det gäller mindre toppdomäner kan det vara användbart att begränsa sökningen till en viss toppdomän, t.ex. .se eller .mil, men de stora .com och .edu kan vara för stora för att begränsningen ska vara effektiv, såvida den inte kombineras med flera andra sökord.

Exempel i Google:

socker ger 2 miljoner träffar
socker site:slv.se ger runt 600 träffar från Livsmedelsverket.

Om man gör en sökning i sökmotorn på Livsmedelsverkets webbplats får man drygt 200 träffar på socker, dvs. ungefär en tredjedel av antalet träffar i Google.

Site: fungerar i bl.a. Google, Yahoo! och Live.

Mer sökteknik

Närhetsoperatorer

Om möjligheten finns, så använd närhetsoperatorer, t.ex. NEAR, istället för ett AND mellan dina sökord för att specificera deras relation. Detta säkerställer att orden återfinns nära varandra i dokumentet. Google tar automatisk med närheten mellan sökorden i relevansberäkningen som görs för att sammanställa träfflistan, men det finns ingen möjlighet att specificera ett avstånd mellan orden.

Sök med minst två sökord

En sökning med två eller tre sökord ger mycket bättre resultat än en sökning med ett ord. En sökning på ett ord blir nästan alltid för bred och mycket brus kommer med i träfflistan. Varje ord man lägger till specificerar de tidigare. Exempel i Google:

telefonnummer ger 29 miljoner träffar
telefonnummer katalog ger 1,6 miljoner träffar
telefonnummer katalog söka ger 115 000 träffar

Ofta begränsas resultatet avsevärt för varje tillagt sökord. I exemplet ovan försvann över 90 procent av träffarna för varje tillagt sökord.

Hitta andra filtyper

Söker man efter speciella filtyper har man två alternativ. Antingen kan man använda en sökmotor som är specialiserad på den aktuella filtypen, eller så kan man söka i en vanlig sökmotor. I en vanlig sökmotor kan man begränsa sökningen till att bara gälla en filtyp. På den avancerade söksidan finns ofta möjligheter att välja filtyp på ett enkelt sätt. Men det innebär att sökmotorn måste ha indexerat den för att den ska finnas med. Genom att söka på filändelsen kommer även länkar till filer av den önskade typen med i träfflistan, eftersom det räcker med att det länkas till filen från webbsidan.

Exempel på nyttan av “liknande sidor” i Google

Jag sökte efter en skiva jag ägt för flera år sedan, en reggae-samling med tidig ska och rocksteady. Skivan var utgiven på ett klassiskt bolag, minns inte vilket, och den första i en serie. Kom på ett möjligt skivbolag: Trojan Records. Kontrollerade deras webbplats men fick inget napp. Inte heller på Amazon music under reggae, ska eller rocksteady. Kom att tänka på Googles funktion “liknande sidor”. Knappade in Trojan Records URL i Google och sökte. När Trojan records kom upp i träfflistan valde jag sedan “liknande sidor”. Vips, först i träfflistan var “Soul Jazz Records”, som lät bekant. På Soul Jazz Records webbplats hittade jag den eftersökta skivan – 100 % Dynamite.

Snabbguide till Google

Grundläggande exempel Hittar sidor som innehåller…
resa tåg orden resa och tåg
lund OR uppsala antingen ordet lund eller ordet uppsala (eller båda orden)
den blomstertid nu kommer den exakta frasen den blomstertid nu kommer
spindel sökmotor ordet spindel men inte ordet sökmotor
google ~guide ordet google och ordet guide med dess synonymer, t.ex. tips och hjälp
define:firewall definitioner av ordet firewall från webben (ej svenska)
carl * hamilton orden carl och hamilton separerade med exakt ett ord (ger t.ex. Carl B Hamilton och Carl Gustaf Hamilton)
Kalkylator Betyder Skriv in i sökrutan
+ addition 13 + 8
subtraktion 21 – 8
* multiplikation 13 * 8
/ division 8 / 3
% of procent av 75% of 755
^ eller ** upphöjt till 2^6 eller 2**6
gamla enheter i nya enheter omvandla enheter 30 euros in SEK eller 30 feet in m
Avgränsa
sökningen
Betyder Skriv in i sökrutan (och resultat)
site: Söker bara inom en webbplats eller domän. linux site:www.kth.se (söker efter linux på KTH)
linux site:.se (söker efter linux i se-domänen)
filetype: (or ext:) Söker bara bland angiven filtyp. befolkningsstatistik filetype:pdf (pdf-filer med ordet befolkningsstatistik)
safesearch: Exkluderar vuxenmaterial. safesearch: sex (söker efter sex utan att presentera t.ex. porr)
Alternativa
frågetyper
Betyder Skriv in i sökrutan (och resultat)
cache: Visar Googles sparade version av webbsidan. cache:www.kb.se (visar Googles sparade version av Kungliga bibliotekets första sida
info: Visar info om webbsidan. info:www.volvo.se (visar länkens träfflistetext och flera val, bl.a. cache: och related:
link: Finner länkade sidor, dvs. sidor som länkar till URL:en. link:www.polisen.se (sidor som länkar till www.polisen.se)
related: Listar webbsidor som är liknande eller relaterade till URL:en. related:www.polisen.se (listar webbsidor som liknar eller är relaterade till polisens webbsida)
Begränsningar Betyder Skriv in i sökrutan (och resultat)
allinanchor: Alla sökorden måste finnas i länktext på sidan. allinanchor:osynliga webben (sidor som har länkar med orden osynliga webben i länktexten)
inanchor: Sökordet efter inanchor: måste finnas i en länktext. begagnade bilar inanchor:billiga (sidor med orden begagnade bilar i texten och billiga i länktexten)
allintext: Alla sökorden måste finnas i texten på sidan. allintext: recept banan curry kyckling (sidor där texten innehåller orden recept, banan, curry och kyckling)
intext: Sökordet efter intext: måste finnas i texten på sidan. brightplanet intext:”deep web” (sidor med ordet brightplanet och där frasen deep web finns i texten)
allintitle: Alla sökorden måste finnas i sidans titel. allintitle:djupa webben (sidor som har orden djupa och webben i titeln)
intitle: Sökordet efter intitle: måste finnas i sidan titel. film bio intitle:topplista (sidor med orden film och bio och där topplista finns i titeln)
allinurl: Alla sökorden måste finnas i sidans URL. allinurl:google faq (sidor med orden google och faq i URL:en)
inurl: Sökordet efter inurl: måste finnas i sidans URL. informationssökning inurl:guide (sidor med ordet informationssökning och där guide finns i URL:en)

1 comment for “8.Sökteknik

Leave a Reply

Your email address will not be published. Required fields are marked *