11.Osynliga webben

Nedanstående är ett kapitel som kommer ifrån boken Effektivare informationssökning på webben (2007) och som i vissa delar har uppdaterats.

Osynliga webben är svår att definiera. Det förekommer fler olika likartade begrepp. Osynliga webben (the invisible web) myntades av en forskare 1994 för det som inte var synligt för sökmotorerna. Dolda webben (the hidden web) används som en synonym för osynliga webben. Somliga anser att osynliga webben är missvisande som begrepp eftersom inget är osynligt utan bara dolt. Företaget BrightPlanet lanserade djupa webben eller djupwebben (the deep web) 2000 för att mer fokusera på teknik som gör informationen i databaser synlig.

Sök bortom det du ser! (Rafiki, apan i filmen Lejonkungen)

Osynliga webbens relevans

Osynliga webben blir allt mer relevant som begrepp av flera orsaker. Både antalet sökare och andelen av dem som väljer att söka med en sökmotor växer – Allt fler än någonsin berörs av osynliga webben. Medvetenheten om osynliga webben har ökat, både bland sökare och informationsproducenter, och fler informationskällor har blivit synliga. De allra flesta som söker information använder söktjänster. Då kan den information som inte hittas i söktjänsterna sägas förbli osynlig, eftersom den är ohittbar genom söktjänsten.

Samtidigt växer webben snabbare än sökmotorernas index – tillväxten på nätet gör att den största delen av informationen kommer att förbli osynlig. Andra informationskällor än rena webbsidor tillkommer i snabb takt: ljud, bild, video, podcasts, nyheter, e-böcker, e-tidskrifter, diskussionslistor, bloggar, rss-flöden, wikis. Sökmotorerna tar bara med några andra filtyper, främst dem med textbaserad information.

Sökmotorerna ger en bild av webben som är runt en månad gammal i genomsnitt. Det tar tid och är en resursfråga hur ofta webbsidor ska återbesökas av sökmotorn. Genomsnittstiden beräknas vara en månad.

Det kommer allt fler och bättre hybrid-söktjänster som söker i den djupa webben. Ännu är det främst tekniska lösningar som säljs för användning inom företag. Men även de traditionella sökmotorerna inkluderar allt mer material från den djupa webben.

Detta var ett antal olika skäl till varför osynliga webben är viktigt för alla som söker information på nätet. En medvetenhet om osynliga webben krävs för riktigt effektiv sökning.

Vad är den osynliga webben?

En kort definition är: Allt som sökmotorerna inte kan se. Det vill säga all information som sökmotorerna inte kan ta med i sitt index och därmed göra sökbart. Men det är komplexare än så. Begreppet osynliga webben utgår från sökmotorerna, inte från oss som informationssökare eller från webben som helhet.

Vad som är den osynliga webben skiftar ständigt, beroende på:

Vilken sökmotor det är

Eftersom den osynliga webben är sökmotorberoende är den olika för varje sökmotor.

Vad sökmotorn indexerar

Sökmotorerna har lite olika täckning, dvs. indexerar lite olika delar av webben.

Hur sökmotorn indexerar

En sökmotor tar inte alltid med hela texten eller alla bilder på en webbsida. Det som utesluts blir osynligt vid sökning.

Hur ofta sökmotorn omindexerar sidor

Populära webbsidor brukar återbesökas oftare av sökmotorerna, men det är upp till varje sökmotor.

Hur stort index sökmotorn har

Antalet webbsidor som sökmotorerna har indexerat skiljer sig mycket åt. Mindre index innebär att mer är osynligt.

Vilka filtyper sökmotorn indexerar

Förutom webbsidor kan sökmotorer indexera andra filtyper som pdf, doc eller flash. Men sökmotorerna är restriktiva med vilka filtyper de indexerar och hur stor del av filerna de tar med i sitt index.

Webbens snabba tillväxt

Webben växer ständigt och i snabb takt. Sökmotorerna kan inte hålla takten och samtidigt ha ett fräscht index. Och det kan ta veckor för en ny webbsida att bli indexerad.

Vad innehåller den osynliga webben?

Den osynliga webben innehåller texter, filer och annan information som inte indexeras av sökmotorerna, av tekniska skäl eller pga. val som sökmotorn gör.

Det finns många databaser som är tillgängliga via webben. Deras innehåll kan i de flesta fall räknas till den osynliga webben.

I databaser som nås via webben, men som oftast är osynliga i sökmotorerna, finns:

  • telefonnummer
  • patent
  • lagar
  • definitioner av ord
  • saker till försäljning i webbutiker eller webbauktioner
  • produktinformation
  • digitala utställningar och gallerier
  • grafik- och ljudfiler
  • ny och föränderlig information
  • nyheter
  • jobbannonser
  • tillgängliga flyplansbiljetter, hotellrum osv.
  • aktiekurser, priser för obligationer, valutakurser osv.
  • uppsatser och examensarbeten

Orsaker till osynlighet

Osynliga webben består av dokument på webben som de stora sökmotorerna inte kan eller vill indexera av olika orsaker. Dels av tekniska skäl, mycket är svårt eller omöjligt att indexera, dels av ekonomiska skäl. Varje sida som indexeras kräver lite av sökmotorns datorkapacitet. Kanske kräver det för mycket att indexera en viss webbplats i förhållande till hur intressant det är för sökmotoranvändarna. Utrymme kostar. Men också strategiska skäl finns för att locka fler sökare och inte förlora dem man redan har.

Olika tekniska skäl

  • Olänkade sidor – ingen länk för sökmotorns spindel att följa till sidan. Sidan blir som en ö på webben.
  • Sidor som främst består av bilder, ljud eller video – otillräckligt med text för att sökmotorn ska ”förstå” vad sidan handlar om gör att den kan ignoreras.
  • Realtidsinformation – kortlivade data; enorma kvantiteter; snabbt föränderlig information, som aktiekurser; radio- och tv-sändningar.
  • Innehåll i relationsdatabaser – spindeln kan inte fylla i de fält eller på annat sätt göra de val som krävs för att databasen ska söka fram information.
  • Dynamiskt genererat innehåll – anpassat innehåll är irrelevant för de flesta sökare. Här finns också en rädsla för “spindelfällor” från sökmotorernas sida, ställen där spindeln kan fastna och inte komma vidare.
  • Inte hela dokument om de är stora. Sökmotorerna har vanligtvis en övre gräns där de slutar indexera dokumenten. Tidigare låg Googles gräns vid 101 kB. Det är förklaringen till varför cachade sidor kan ta slut abrupt.
  • Inte alla ord. S.k. stoppord som att och och kan uteslutas för att spara plats. I och med att fler sökmotorer sparar ner hela sidor inkluderas nu även de tidigare utelämnade stopporden.
  • Inte all metadata. T.ex. inte informationen i webbsidans huvud, mellan <head> … <\head> som tidigare användes bl.a. för missvisande nyckelord i metataggarna i syfte att manipulera sökmotorerna.
  • Inte alla kataloger på en webbplats. Sökmotorerna begränsar ofta hur djupt de indexerar i katalogstrukturen (t.ex. inte ända ned till www.omis/filer/dokument/2005/december/lista.html).

Vad kan eller vill inte sökmotorerna indexera?

  • Inte hela dokument om de är stora. Sökmotorerna har vanligtvis en övre gräns där de slutar indexera dokumenten. Tidigare låg Googles gräns vid 101 kB. Det är förklaringen till varför cachade sidor kan ta slut abrupt.
  • Inte alla ord. S.k. stoppord som att och och kan uteslutas för att spara plats. I och med att fler sökmotorer sparar ner hela sidor inkluderas nu även de tidigare utelämnade stopporden.
  • Inte all metadata. T.ex. inte informationen i webbsidans huvud, mellan <head> … <\head> som tidigare användes bl.a. för missvisande nyckelord i metataggarna i syfte att manipulera sökmotorerna.
  • Inte alla kataloger på en webbplats. Sökmotorerna begränsar ofta hur djupt de indexerar i katalogstrukturen (t.ex. inte ända ned till www.omis/filer/dokument/2005/december/lista.html).

Fördelar med osynliga webben

I osynliga webben finns inga personliga hemsidor och ingen reklam (ännu). Innehållet är i stor utsträckning producerad av olika institutioner och ofta i ett speciellt syfte. Den breda, allmänna informationen publiceras inte här, utan på synliga webbplatser.

Detta leder till att man som sökare sparar tid (om man vet vad man letar efter) och risken att använda “dålig” information blir mindre. Man slipper också försäljning och reklam, som kan ta tid och genererar mycket brus (om man inte är ute efter varor eller tjänster).

Olika typer av osynlig webb

Den osynliga webben kan delas in i olika delar:

  • Dåligt rankade webben
  • Oindexerade webben
  • Privata webben
  • Skyddade webben
  • Verkligt osynliga webben
  • Färska webben
  • Försvinnande webben
  • Icke-existerande webben

Dåligt rankade webben

Mycket information i sökmotorerna är i praktiken osynlig eftersom den rankas lågt i sökmotorernas träfflistor, informationen kan sägas vara begravd långt nere i träfflistan.

  • Udda filtyper, allt som inte är vanliga webbsidor, hamnar ofta långt ned i träfflistan.
  • Begränsning av antalet träffar som visas. Alla sökmotorer har en begränsning i antalet visade träffar. Ofta kan man bara se ett par hundra träffar, även om sökningen genererat 3 miljoner träffar.
  • Färska webbsidor som få länkar till (få inlänkar) får lägre värde i rankningen än de som viktiga webbplatser eller många länkar till (många/viktiga inlänkar).
  • Ändra sökord eller använd synonymer – ersätt sökord eller använd OR. I Google används ~ (tilde).
  • Ändra ordningen på sökorden. Sökorden viktas olika när relevansen beräknas.
  • Dubblera det viktigaste sökordet för att öka dess vikt vid relevansberäkningen (fungerar i Google, Yahoo! och Exalead).
  • Repetera sökning i olika söktjänster – de har olika täckning och rankning.
  • Sök olika typer av information, ljud, bild osv. med sökmotorernas specialfunktioner eller i söktjänster för specifika filtyper.
  • Fundera på i vilket format man kan lättare hitta informationen. Kanske presenteras den i rapporter (pdf) eller som presentationer (ppt) – begränsa till en speciell filtyp.

Hur man söker i den dåligt rankade webben

  • Ändra sökord eller använd synonymer – ersätt sökord eller använd OR. I Google används ~ (tilde).
  • Ändra ordningen på sökorden. Sökorden viktas olika när relevansen beräknas.
  • Dubblera det viktigaste sökordet för att öka dess vikt vid relevansberäkningen (fungerar i Google, Yahoo! och Exalead).
  • Repetera sökning i olika söktjänster – de har olika täckning och rankning.
  • Sök olika typer av information, ljud, bild osv. med sökmotorernas specialfunktioner eller i söktjänster för specifika filtyper.
  • Fundera på i vilket format man kan lättare hitta informationen. Kanske presenteras den i rapporter (pdf) eller som presentationer (ppt) – begränsa till en speciell filtyp.

Oindexerade webben

Består av filer som kan inkluderas i sökmotorernas index men som inte är det. Denna del av den osynliga webben är omfattande och svår att finna. En stor del av webben är oindexerad.

Olika anledningar är:

  • Indexeringsdjupet
  • Indexeringsfrekvensen
  • Olänkade sidor
  • Dåligt designade webbsidor (sökmotorovänliga)

För att testa om en sida är indexerad i Google så skriver man info: före webbadressen:

Fig. Info:www.omis.se i Google.

Sidan är indexerad och du kan välja på följande:

  • Se på versionen av sidan som ligger i Google cache. (Sidan är sparad som den såg ut när Google besökte/indexerade sidan senast.)
  • Låta Google göra en sökning efter sidor som liknar den aktuella sidan.
  • Se vilka sidor som länkar till den aktuella sidan.
  • Låta Google göra en sökning efter sidor som innehåller den aktuella sidans URL.

Om du söker efter info: för en sida som inte är indexerad får du bara följande val:

  • Gå till den aktuella adressen.
  • Låta Google göra en sökning efter sidor som innehåller den aktuella sidans URL.

En sida som inte är indexerad:

Fig. Info:www.omis.se/about.html i Google.

Hur man söker i den oindexerade webben

  • Ämneskataloger
  • Industriportaler
  • Gå direkt till den som kan ha informationen
  • Testa olika sökmotorer (olika täckning på webben)

Privata webben

Webbplatsägare kan på olika sätt hindra sökmotorer från att indexera webbsidor. En webbansvarig har tre sätt att exkludera en sida från en sökmotor:

  • Använda lösenord som skyddar sidan så att en sökmotorspindel kan inte ta sig förbi formuläret.
  • Använda robots.txt för att förbjuda spindlar att komma till sidan. (The Web Robots Pages, www.robotstxt.org/wc/robots.html)
  • Använda metataggen “noindex” som hindrar spindeln att läsa resten av sidan och att indexera sidan.

Webbsidor inom den privata webben kan ha olika syften. Kanske är det familjesidor som bara ska spridas till släkt och vänner. Det kan också vara sidor för ett projekt som ursprungligen hade en bestämd målgrupp. Eller en webbplats under konstruktion.

Allt oftare krävs det att man skriver in en kod bestående av fyra, fem bokstäver och siffror som visas i en lite förvrängd bildruta jämte rutan för inskrivning av koden. Detta är ett enkelt lösenord som skyddar tjänsten från att utnyttjas av automatiserade program, som sökmotorernas spindlar är. Det krävs en människa för att läsa av och skriva in koden och därmed använda tjänsten. På samma sätt fungerar andra lösenord för sökmotorerna – en återvändsgränd.

Hur man söker i den privata webben

  • Ämneskataloger
  • Industriportaler
  • Indirekt i sökmotorer

Skyddade webben

I den skyddande webben, liksom i den privata webben, hindras sökmotorerna från att indexera innehållet. Den skyddade webben är mer kommersiell till sin natur, ofta handlar det om att binda upp användare så att de återvänder eller betalar för tjänsterna.

  • Sidor där användaren måste gå med på vissa villkor för att få tillgång till sidan.
  • I många fall är webbsidorna fritt tillgängliga efter registrering.
  • I andra fall krävs en avgift in, per sida eller som något sorts abonnemang (t.ex. Aftonbladet Plus).
  • Hit räknas även traditionella databasföretag (t.ex. Dialog, www.dialog.com) .
  • Industriportaler
  • Registrera sig som användare på enskilda, fria webbplatser
  • Sökning i betaltjänster – abonnemang eller betala enskilda sökningar

Hur man söker i den skyddade webben

  • Industriportaler
  • Registrera sig som användare på enskilda, fria webbplatser
  • Sökning i betaltjänster – abonnemang eller betala enskilda sökningar

Verkligt osynliga webben

Den verkligt osynliga webben är den stora mängd information som finns lagrad i databaser och udda filformat. Med modern teknik kan mycket indexeras, men dagens sökmotorer bygger i stor utsträckning på teknik från webbens födelse (första halvan av 1990-talet).

  • De webbplatser som sökmotorerna inte kan indexera av tekniska skäl.
  • De filformat som spindeln inte är programmerad att klara av.
  • Svåra för sökmotorn att kategorisera på grund av lite text. All sökning i sökmotorerna sker igenom matchning av sökord och ord på webbsidan. Innehåller webbsidan få ord kan sidan bli ohittbar i indexet.
  • Sökmotorerna har valt bort att indexera dem.
  • Dynamiska sidor – dåligt konstruerade sidor kan bli spindelfällor, dvs. sökmotorns spindel kör fast i de länkar som genereras och kommer inte vidare.
  • Information i relationsdatabaser – fråga till databasen krävs.
  • Indirekt i sökmotorer (efter t.ex. databaser)
  • Kataloger
  • Industriportaler

Hur man söker i den verkligt osynliga webben

  • Indirekt i sökmotorer (efter t.ex. databaser)
  • Kataloger
  • Industriportaler

Färska webben

Det publiceras ständigt på webben. Nyheter, blogginlägg, pressreleaser, nya webbsidor, rapporter osv. En del indexeras i stort sett omgående av de stora sökmotorerna, men mycket information förblir osynlig i veckor eller månader.

Hur man söker i den färska webben

  • Nyhetssöktjänster
  • Bloggsöktjänster
  • Via experters webbsidor
  • Bevaka ämne eller webbplats – passiv sökning

Försvinnande webben

Webben är inte statisk, utan utvecklas och förändras ständigt. Information tillkommer och försvinner – ”here today, gone tomorrow.”

Hur man söker i den försvinnande webben

  • Kapa URL:en för att komma till en fungerande webbsida för att sedan söka sig ned igen.
  • Kontrollera URL i sökmotor med cache:.
  • Göra en webbplatssökning i en sökmotor med nyckelord från den försvunna sidan (site:).
  • Om inte 1-3 fungerar, eller om hela webbplatsen försvunnit, prova Internet Archive (www.archive.org).

Den försvunna informationen kan sökas efter i webbarkivtjänster, se Gamla webben

Icke-existerande webben

ALLT finns inte på webben! Ofta kan människor vara nyckeln till den eftersöka informationen. Om sökningen inte ger någonting, trots ansträngningar – leta efter en expert.

Hur du söker på den icke-existerande webben

  • Kolla med vänner eller kollegor. Kanske vet någon om en bra startpunkt eller viktig resurs. Många organisationer har någon “informationsguru” eller informationsfunktion.
  • Kontakta ett närliggande offentligt bibliotek – professionell hjälp gratis.
  • Anlita en researcher.

Djupa webben

Företaget BrightPlanet delar in webben i två delar, den ytliga webben och den djupa webben. De anser att djupa webben (the Deep Web) är ett mer rättvisande begrepp än osynliga webben.

Den ytliga webben är de statiska webbsidorna som sökmotorerna kommer åt, och som därmed blir synliga och sökbara i de traditionella sökmotorerna. Under ytan finns de dynamiskt genererade webbsidorna och databaserna som sökmotorerna inte kommer åt, därför förblir djupa webben dold eller osynlig.

Den mesta informationen på webben är begravd på dynamiskt genererade webbsidor, som inte existerar förrän de skapas som svar på en specifik sökning.

Djupa webbens storlek

Företaget BrightPlanet beräknade 2001 djupa webbens storlek till 7500 terabyte. Fler siffror från rapporten[1]:

  • Ytwebben: 19 terabyte och 1 miljard dokument (1 terabyte = 1000 gigabyte).
  • Djupa webben: 7500 terabyte och 550 miljarder dokument.
  • Djupa webben är 400-550 gånger större än ytwebben.
  • Djupa webben innehåller 1000-2000 gånger mer kvalitetsinformation än ytwebben.

Google har beräknat innehållet på Internet till 5 miljoner TB, varav Google indexerat 170 TB (en trettiotusendel) i oktober 2005.

Om innehållet på Internet har fördubblats till 10 miljoner TB totalt sedan Googles beräkning och om djupwebben är 500 gånger större än ytwebben så är ytwebben 20 000 TB och djupwebben knappt 10 miljoner TB. Om Google har fördubblat sitt index under tiden, så har de indexerat runt 350 TB, knappt 2 procent av ytwebben.

Å andra sidan finns forskare som hävdar att Google indexerat 76 procent av den indexerbara webben (ytwebben) som beräknas bestå av minst 11,5 miljarder webbsidor (2005).

Djupa webbens innehåll

  • Djupa webbens innehåll är relevant för varje informationsbehov.
  • Mer än hälften av innehållet finns i ämnesspecifika databaser.
  • 95 % av djupa webben är fritt tillgänglig information – varken avgifter eller abonnemang.

Största delen av innehållet är enligt BrightPlanet ämnesdatabaser (54 %). Tillsammans med dokument på webbplatser och arkiverade publikationer utgör ämnesdatabaserna otroliga mängder ämnesspecifik information och utgör närmare 80 % av djupa webben. Handelsrelaterade webbplatser, som auktions-sajter, står för ca 10 % av innehållet. Några andra delar är portaler (3 %) och bibliotek (2 %). Studien är från 2001 så storleksförhållanden kan ha förändrats något, men siffrorna ger en bild av djupa webben.

Osynliga webben – djupa webben

Osynliga webben och djupa webben går att kombinera. Nedanstående illustration är ett försök att tydligtgöra relationerna mellan de två begreppen. Osynliga webben är sökmotorberoende, medan djupa webben utgår ifrån hur information är till sin natur och hur den är lagrad.

Fig. Synligt och osynligt i Google.

Storleksförhållandena i bilden visar på möjliga förhållanden mellan hur mycket som är indexerat i sökmotorerna, i detta fall Google, och hur mycket som inte är det.

Gamla webben

Tillväxten på webben är över 200 procent per år. Samtidigt försvinner runt 40 procent årligen, varav en del är av historiskt intresse.

Genom Internet archive och Waybackmachine (www.archive.org) kan man söka efter gamla webbsidor.

En alternativ ingång till Internet archive och Waybackmachine finns på Alexandriabibliotekets webbplats (den kan behövas ibland när den andra är långsam):

www.bibalex.org/English/initiatives/internetarchive/about.htm

Fig. Internet archive och Waybackmachine

Sökmotorer som har cachade versioner av de indexerade webbsidorna i sitt sökmotorindex kan också användas för att återfinna försvunna sidor. Det gäller bara att sökmotorn inte hunnit återvända till webbsidan och omindexera den. Den ibland långsamma omindexeringen är svaret på frågan varför det inte alltid är samma sida som man ser som cachad i sökmotorn och som man sedan kommer till. I värsta fall har webbsidan hunnit ändras helt innehållsmässigt sedan sökmotorn sist var på besök.

Sökning i osynliga webben

När ska du söka i djupa/osynliga webben?

  • När du söker efter dynamisk och föränderlig information, som nyheter, jobbannonser eller flygavgångar.
  • När du vill hitta information som normalt lagras i en databas.
  • När du vill söka bortom sökmotorernas begränsade index.
  • Invisible web gateways
  • Kataloger/ämneskataloger
  • Specialiserade sökmotorer
  • Sökmotorer
  • Vid källan (databassökning)

Olika söktjänster för sökning på osynliga webben

Söktjänster

Invisible web gateways

Uttalad inriktning mot osynliga webben

  • Profusion (www.profusion.com, fd. invisibleweb.com) – intelligent (?) metasökmotor
  • CompletePlanet (www.completeplanet.com) – katalog
  • IncyWincy (www.incywincy.com) – sökmotor
  • Librarians Index to the Internet (http://lii.org) – testa att söka på database för att finna databaser, kombinera med ämnesord.
  • Infomine (http://infomine.ucr.edu)
  • Feedster (www.feedster.com)
  • Eniro nyhetssök (www.eniro.se/nyhetssok/)

Kataloger/ämneskataloger

  • Librarians Index to the Internet (http://lii.org) – testa att söka på database för att finna databaser, kombinera med ämnesord.
  • Infomine (http://infomine.ucr.edu)

Specialiserade sökmotorer

  • Feedster (www.feedster.com)
  • Eniro nyhetssök (www.eniro.se/nyhetssok/)

Sökmotorer

  • Google – prova t.ex. migration database

Sökstrategier

Sökord som pekar

Om man inte söker i specifika osynliga-webben-tjänster, utan i vanliga söktjänster, gäller det att välja sökord som pekar mot det osynliga materialet man vill åt:

  • databas eller database + ämnesord
  • arkiv eller archive + ämnesord
  • sök eller search (“klicka här för att söka”, pekar mot databas)
  • lyssna (pekar mot ljudfil) i Google: elvis lyssna eller elvis listen

Sök efter databaser

Informationen i den osynliga webben finns vanligtvis i databaser som nås via webben. Trots att sökmotorerna inte kan söka i databaserna, kan de lokalisera många databasers hemsidor eller sökformulär.

När du söker efter databaser, använd dina sökord/ämnesord tillsammans med ord som databas och arkiv. Eller motsvarande uttryck på engelska: database, archive och repository. Till exempel:

”plane crash” AND database

Filtyp

Att begränsa sökningen till en viss filtyp kan ge värdefullt material, t.ex.:

“invisible web” och begränsa till filtypen ppt (Power Point)

Sök efter platser där osynliga webben-innehåll troligtvis finns

Tänk ut hur du kan nå sidan där informationen finns indirekt. Vilken sida kan länka till den eftersökta informationen? Intresseorganisationer och myndigheter är bra utgångspunkter.

Indirekt sökning – tvåstegssökning

Vilken webbplats kan innehålla det du söker efter? Sökmotorerna indexerar (tar med i sin databas) inte alla sidor, inte hela sidorna och inte alla bilder och länkar. Men mycket kan du hitta indirekt genom sökmotorerna.

-> Fördjupning: 2-stegssökning (indirekt sökning)

Omvänd länksökning

När du funnit en användbar osynliga webben-databas, utnyttja de andra användarna som tycker resursen är bra för att få reda på andra webbplatser. Genom omvänd länksökning kan du leta upp kataloger och länksamlingar som länkar till den aktuella databasen. Ofta länkar de också till andra bra resurser.

link:http://www.planecrashinfo.com

ger webbsidor som länkar till www.planecrashinfo.com och finns med i sökmotorns index.

Utnyttja webbplatsers sökverktyg

Ofta är databaser “dolda” långt ner på webbplatser. För att finna dem, använd webbplatsens sökverktyg på stora auktoritativa webbplatser, t.ex. FN, Världsbanken eller de stora universiteten.

Gå igenom dina bokmärken

Kanske har du redan hittat en bra OW-webbplats och sparat ett bokmärke. Hur vet du att en bokmärkt webbplats tillhör osynliga webben? Använd “URL-testet” för att kontrollera. Sätt markören till vänster om ett frågetecken i en URL i webbläsarens adressfönster och radera allt till höger, inklusive frågetecknet, och ladda sedan om sidan. Om du får ett felmeddelande eller “sidan hittas inte” är det troligtvis en OW-resurs eftersom hela adressen behövdes för att databasen skulle kunna skapa en meningsfull sida.

Övervaka ämnesspecifika e-postlistor eller forum

Leta upp e-postlistor eller forum där ämnesexperter eller informationsspecialister som bibliotekarier och journalister diskuterar. Följ diskussionerna eller sök i arkivet om det finns ett. Mycket av kunskaperna och erfarenheterna som passerar dessa kanaler kommer aldrig i tryck (eller på webben).

Begränsa sökningen till specifika filtyper

Genom att begränsa sökningen i en sökmotor till en filtyp är det lättare att hitta mer innehållsrikt material.

filetype:ppt “osynliga webben” OR “djupa webben”

Sök i specialiserade sökmotorer

Specialiserade sökmotorer indexerar ofta djupare på relevanta webbplatser eller i hela pdf-filer (både Google och Yahoo! har haft begränsningar i antalet kB som indexeras).

Vid källan – exempel reseplanerare

Reseplanerare, som Skånetrafikens eller SL:s, synliggör information som är osynlig i en vanlig sökmotor. Man är tvungen att gå till reseplanerarens webbsida och där utforma sökningen. Det går inte att skriva in sitt resmål och färdsätt i en sökmotor, t.ex. buss stockholm cityterminalen medborgarplatsen och få upp nästa avgång med buss 59 (än så länge). En del länstrafikbolag har lagt ut busstidtabellerna i pdf-format, så kanske följande sökning fungerar: sl.se buss 59 tidtabell pdf.

Bilders sökbarhet i sökmotorer

Att söka efter bilder är svårare eftersom sökmotorerna bygger på text och tecken. Vanligtvis gäller följande:

  • Filnamnet indexeras, t.ex. leo12.jpg.
  • ALT-taggen kan indexeras om den finns, exempel: bilden på Kulturanatomen (www.kult.lu.se ).
  • Text som är nära bilden indexeras oftast.

Detta innebär att du ska söka på 1-3 sökord när du söker bilder, inte mer.

Google bildsök: sök på boeing 747 och 747 boeing i två olika fönster och jämför träfflistorna. Det du får är ungefär samma träffar men med olika rankning beroende på sökordens inbördes ordning. (Se illustration i kapitel 2).

Tänk på copyrighten! De flesta bilder som du hittar på webben ägs av någon.


[1] Se www.brightplanet.com/technology/deepweb.asp

Leave a Reply

Your email address will not be published. Required fields are marked *