1.Grunderna

Nedanstående är ett kapitel som kommer ifrån boken Effektivare informationssökning på webben (2007) och som i vissa delar har uppdaterats.

Internet och webben

Vad är egentligen Internet, nätet och webben? Internet är i strikt mening nätverket som mestadels består av datorer och fiberoptiska kablar runt hela jorden. Webben (www eller World Wide Web) består av webbsidor som läses i en webbläsare (t.ex. Internet Explorer). Webben bygger på det fysiska nätverk som Internet utgör. Internet är egentligen en mängd datorer sammanbundna med nätverkskablar som kommunicerar med varandra med ett gemensamt språk, dvs. ett nätverk och inget annat. Webbplatser (en mängd sammankopplade webbsidor) ligger på en s.k. webbserver och görs tillgängliga via Internet. Med din uppkopplade dator beställer du hem de webbsidor du vill titta på i din webbläsare. E-post är ett annat utnyttjande av Internet. E-brev skickas mellan olika mejlservrar som är uppkopplade till Internet. Filöverföring är en tredje användning av Internet.

Grunden till Internet var ett nätverk i USA som kopplade ihop försvarsanläggningar och universitet. Fram till 1990-talet var de flesta användarna forskare vid forskningsanläggningar och universitet. Under 1990-talet slog webben igenom och Internet kommersialiserades allt mer. På 2000-talet har den blivit en naturlig del av mångas vardag och ses inte längre som något främmande.

Webbadresser

En webbadress kallas URL (Uniform Resource Locator). Varje URL är unik och leder till en bestämd fil på en bestämd dator.

En URL är uppbyggd enligt följande:

http://www.omis.se/exempel/webb/webbsida.html

http:// innebär att webbläsaren använder Hypertext Transfer Protocol (HTTP) för att ta hem filen till din dator. Andra protokoll används för t.ex. e-post eller filhämtning.

www.omis.se är namnet på den dator (kallas ofta för webbserver) där filen (webbsidan) är lagrad. Ändelsen .se visar att det är en sida som tillhör den svenska toppdomänen på Internet.

/exempel/webb/ är katalogen och underkatalogen på den aktuella datorn (webbservern) som filen (webbsidan) ligger i.

webbsida.html är namnet på filen. Filändelsen .html visar att det är en sida som är skriven i språket Hypertext Markup Language (HTML).

Webbadresser är alltså uppbyggda enligt följande:

hur-man-kommer-dit://vart-man-ska-gå/vad-man-ska-hämta

IP-nummer

IP-numret (IP-adressen) är datorns unika adress som gör kommunikation på Internet möjlig. IP-adressen styrs av protokollet Internet Protocol (IP) och består av 32 bitar som vanligtvis skrivs decimalt, t.ex. 194.14.94.1. DNS (Domain Name System) översätter domänen i webbadressen, t.ex. www.omis.se, till ett IP-nummer så att kommunikation kan ske mellan datorerna på Internet via protokollet TCP/IP. (TCP/IP är en standard för datorkommunikation som bygger på de två protokollen TCP och IP.)

Statiska webbsidor

En vanlig ”gammaldags” webbsida skriven i språket HTML sparad som en fil på en webbserver är en statisk webbsida. Webbsidan ändras bara om en ny version av filen laddas upp till webbservern och ersätter den gamla. Statiska webbsidor är oftast skapade manuellt, i ett textredigeringsprogram eller i ett program med ett grafiskt användargränssnitt som Frontpage. De statiska sidorna innehåller generell information eftersom de måste ändras för hand. De flesta statiska webbsidor är indexerbara, dvs. sökmotorerna kan lägga till dem i sina databaser. Det kan vara problem med ramar (frames) eller olika skript.

HTML

Att känna till grundläggande HTML är viktigt för att kunna utnyttja sökmotorerna på ett effektivt sätt. De stora sökmotorerna är ursprungligen konstruerade för att bara hantera html-sidor, och många av deras sökfinesser bygger på de olika elementen, delarna, i HTML.

Nedan visas en enkel html-sida. På följande sidor förklaras html-koden för www.omis.se/exempel/webb/webbsida.html.

Bild. Webbsidan www.omis.se/exempel/webb/webbsida.html

Html-koden för webbsidan i bilden ovan:

<html>
<head>
<title>Webbsida</title>
</head>
<body>
<h1>Dagstidningar</h1>
<p><a href=”http://www.dn.se/”>Dagens nyheter (DN)</a></p>
<p><a href=”http://www.svd.se/”>Svenska dagbladet (SvD)</a></p>
<br>
<h3>Var hittar jag &auml;ldre artiklar?</h3>
<p>En del artiklar kan du hitta i tidningens digitala arkiv p&aring; dess hemsida. Vissa tidningar l&auml;gger upp allt och g&ouml;r det fritt tillg&auml;ngligt. Andra vill ha betalt eller kr&auml;ver att du &auml;r prenumerant. Titta efter!</p>
<img src=”arkivet-dn-meny.png” alt=”Arkivet i menyn p&aring; dn.se” height=”44″ width=”124″ border=”0″>
<p><i>Bild. Arkivet i menyn p&aring; dn.se</i>.</p>
<br>
<p>Rikstidningarna finns med i fulltextdatabaserna <b>Mediearkivet</b> och <b>Presstext</b>. I Mediearkivet finns Svenska Dagbladet tillsammans med G&ouml;teborgs Posten och Aftonbladet. I konkurrenten Presstext finns Dagens Nyheter och Expressen.</p>
</body>
</html>

Orden inom <> kallas för taggar och kan sägas vara kommandon. På första raden bestäms det att dokumentet är ett html-dokument.

<html>
<head>
<title>Webbsida</title>
</head>

Sedan kommer dokumentets huvud (head) där dokumentets titel anges: ”Webbsida”. Det är titeln som visas i webbläsarens översta list. Det som står i huvudet syns inte på själva webbsidan, utan det har andra funktioner. Därefter avslutas huvudet (/ innanför taggarna betyder att kommandot tar slut) och själva ”kroppen” tar vid, <body>. Det är texten i body som visas i webbläsarens fönster.

<body>
<h1>Dagstidningar</h1>

h1 är en rubriknivå, den högsta som ger stora rubriker. I den sista raden betyder ”p&aring” p och a+ring, dvs. svenska ”på”. Omskrivningarna av de svenska tecknen krävs för att de ska visas rätt i alla webbläsare.

<p><a href=”http://www.dn.se/”>Dagens nyheter (DN)</a></p>
<p><a href=”http://www.svd.se/”>Svenska dagbladet (SvD)</a></p>

<p> betyder början på en paragraf. Stycket består av fem paragrafer med samma uppbyggnad och varje paragraf innehåller en länk till en dagstidning. Länken är uppbyggd enligt följande:

<a href=”http://www.dn.se/”>Dagens nyheter (DN)</a>

a står för anchor, ankare, som är koden för en länk.

href=”http://www.dn.se/” är en hypertextreferens som i detta fall är lika med DN:s URL.

Dagens nyheter (DN) är den klickbara texten.

/a betyder att länken avslutas.

<br>

br står för BREAK, dvs. ny rad.

<h3>Var hittar jag &auml;ldre artiklar?</h3>
<p>En del artiklar kan du hitta i tidningens digitala arkiv p&aring; dess hemsida. Vissa tidningar l&auml;gger upp allt och g&ouml;r det fritt tillg&auml;ngligt. Andra vill ha betalt eller kr&auml;ver att du &auml;r prenumerant. Titta efter!</p>

Ovanstående är ett textstycke med en rubrik. Rubriken är på nivå 3, dvs. mindre än h1 ovan.

<img src=”arkivet-dn-meny.png” alt=”Arkivet i menyn p&aring; dn.se” height=”44″ width=”124″ border=”0″>
<p><i>Bild. Arkivet i menyn p&aring; dn.se</i>.</p>

<img src> står för image source (bildkälla) och infogar en bild med namnet ”arkivet-dn-meny-png” på sidan. Alt=”…” är texten som visas om man inte kan se bilden av någon anledning, t.ex. synskada. I taggen bestäms bildens höjd och bredd samt om den ska ha någon ram. Därefter kommer en paragraf med kursiv (<i>) bildtext.

<p>Rikstidningarna finns med i fulltextdatabaserna <b>Mediearkivet</b> och <b>Presstext</b>. I Mediearkivet finns Svenska Dagbladet tillsammans med G&ouml;teborgs Posten och Aftonbladet. I konkurrenten Presstext finns Dagens Nyheter och Expressen.</p>
</body>
</html>

I det sista stycket finns två ord märkta med <b> för fet stil (eng. bold). Stycket och hela exemplet slutar med att dokumentets kropp (body) avslutas och därefter avslutas sidan med </html>.

Metataggar

Metataggar är taggar i html-sidans huvud där metainformation kan skrivas in. Metainformation är information om information, t.ex. vem som skapat sidan. I en webbsidas metataggar kan sidans skapare specificera nyckelord och koncept som sidan ska återfinnas under. Sökmotorerna kan sedan ta hänsyn till orden i metataggarna vid relevansberäkningen. Tidigare var det ofta information från metataggarna som visades i sökmotorernas träfflistor. Google var en av de första sökmotorerna som istället visade utdrag från texten på webbsidan i träfflistan. Men det har varit ett missbruk av metataggar genom att sidor fått populära sökord som taggar för att locka besökare, utan att taggarna haft något med sidans innehåll att göra. Metataggarnas betydelse för både sidskapare och sökare har radikalt minskat och idag tar de stora sökmotorerna liten eller ingen hänsyn till metataggarna. I de fall de ser till metataggarna kontrollerar sökmotorn orden i metataggarna mot textinnehållet på själva webbsidan för att kunna bortse från metataggar som inte matchar innehållet.

Dynamiska webbsidor

Dynamiska sidor ligger inte, till skillnad från de statiska sidorna, färdiga på någon server. De skapas utifrån de olika val som du gör när du besöker en webbplats. Ibland kommer webbplatsen ihåg dina val, t.ex. färginställningar, och då utnyttjar webbplatsen s.k. cookies (små filer som sparas på din dator). Med dynamiska webbsidor är det möjligt att skapa e-handelslösningar, diskussionsforum och nättidningar.

Informationen (innehållet) på de dynamiska webbsidorna sparas i en databas och när du besöker en dynamisk sida så skapas en sida till dig utifrån informationen i databasen och ramarna för webbplatsen. I vissa fall uppdateras informationen ofta, som t.ex. dagstidningarnas förstasidor, och då är informationens ålder viktig tillsammans med nyhetsvärdet.

Ett sätt att se om en webbsida är dynamisk är att studera dess webbadress (URL). Om URL:en innehåller ett frågetecken mitt i, så är det ett tecken på att det är en dynamisk webbsida.

Dynamiskt genererad information kan ibland vara svår att hitta i sökmotorerna. Det beror på systemet som informationen är publicerad i, och hur detta fungerar, om sökmotorerna kan hitta och ta med informationen i sina index.

Webbläsaren

En webbläsare är ett program på din dator som gör att du kan se html-dokument och därmed få tillgång till all den information och alla de filer som är tillgängliga via webben. Idag är Microsofts Internet Explorer den vanligaste webbläsaren, men det finns även andra. Mozilla Firefox är exempel på en ny webbläsare. Innan Microsoft gjorde Internet Explorer till en del av sitt operativsystem Windows, var Netscape Navigator den vanligaste webbläsaren.

Till webbläsaren finns s.k. plug-ins, insticksprogram på svenska, små program som förbättrar webbläsarens funktionalitet. Många ljud- och bildfiler kräver att du har ett visst insticksprogram för att de ska kunna visas i webbläsaren. Om du klickar på en länk till en fil som din webbläsare inte stödjer kommer det ofta upp ett fönster som frågar om du vill installera programmet i fråga. De flesta program är gratis och är lätta och säkra att installera på din dator om du följer instruktionerna.

Med webbläsaren kan du hantera webbsidorna på olika sätt. Du kan spara adresser (favoriter/bokmärken), skriva ut webbsidor, skicka sidan eller länken med e-post, samt spara ned filen på din dator. På engelska heter webbläsare web browser, ofta förkortat browser.

Olika typer av söktjänster

Söktjänster är navigationshjälpmedel på webben. Söktjänsterna i sig innehåller ingen information, utan länkar till sidor med innehåll. Söktjänsterna kan delas in i tre fundamentalt olika typer:

  • Sökmotorer
  • Kataloger
  • Metasöktjänster

Sökmotorer

Sökmotorer indexerar automatiskt webbsidor, dvs. datorprogram läser och sparar ned webbsidor i en databas. När du söker i en sökmotor söker du dess i databas, inte ute på webben. Exempel är Google (google.se) och Yahoo! search (search.yahoo.com).

Kataloger

Kataloger är skapade av människor, till skillnad mot sökmotorerna. Redaktörer, ofta bibliotekarier, samlar in länkar och placerar dem i en ämneshierarki. Vanligtvis kommenteras länkarna och ibland förses de med ämnesord. Exempel är Librarians index to the internet (lii.org) och Svenska webbplatser (katalogen.kthnoc.se).

Metasöktjänster

Metasöktjänster är söktjänster som söker i andra söktjänster, i kataloger och sökmotorer, och sammanställer en träfflista. I somliga metasöktjänster blandas det in reklam i träfflistan. Exempel är Clusty (clusty.com) och Metacrawler (metacrawler.com).

Söktjänsters olika drift och finansiering

Söktjänsterna skiljer sig åt i fråga om drift och finansiering. De spelar i olika divisioner och har olika ursprung och syften. De kan delas in i följande kategorier (exempel inom parentes):

  • Ideellt arbete (t.ex. Open directory project)
  • Hobby (enskilda personers länksamlingar)
  • Reklam (t.ex. Google)
  • PR för speciell sökteknik eller företag (t.ex. Bright Planet)
  • Offentligt finansierad söktjänst (t.ex. Biogate och Mölndals länkkatalog)
  • Forskningsprojekt (många av sökmotorerna har startat som forskningsprojekt, t.ex. Google)

Terminologi

Det finns ingen klar terminologi kring söktjänster. Jag använder söktjänster som det övergripande begreppet och därunder tre typer: sökmotorer, kataloger och metasöktjänster. Men ofta används ordet sökmotorer för alla söktjänster (speciellt på engelska, search engines). Inom datavetenskapen är en sökmotor däremot den del av t.ex. Google som söker i indexet, inte hela söktjänsten (dvs. en ännu snävare definition). Andra begrepp är sökmaskiner eller sökrobotar.

Kring katalogtjänster finns det ännu fler begrepp: kataloger (plus ämnes- eller webbkataloger), länklistor, länksamlingar, portaler/ämnesportaler (gateways) och virtuella bibliotek.

Databas

Begreppet databas använder jag för en sluten mängd information, lagrad i ett strukturerat system som är nåbart genom ett speciellt gränssnitt. Ofta innehåller databaserna information inom ett smalt ämne. Databaser i denna mening har funnits långt före webben och varit tillgängliga via cd-rom, modem osv. Nu är de flesta nåbara via Internet igenom webbgränssnitt, men många kräver registrering eller abonnemang.

Betaversion

En betaversion är en version av ett dataprogram eller en webbtjänst som är under utveckling. Programmet eller tjänsten är kanske inte helt stabil och som användare kan man inte ställa samma krav på en betaversion. Ofta markeras betaversioner med tillägget beta efter namnet. Betaversioner är speciellt vanligt när det gäller nya webbtjänster.

2 comments for “1.Grunderna

Leave a Reply

Your email address will not be published. Required fields are marked *