12.Databaser

Nedanstående är ett kapitel som kommer ifrån boken Effektivare informationssökning på webben (2007) och som i vissa delar har uppdaterats.

Vad är en databas?

En databas är, ur användarperspektiv, oftast en stor mängd information, samlad i ett slutet system. Som användare kan man ofta söka i enskilda databaser, men bara databasens ägare kan publicera information i databasen. På webben däremot kan alla på ett enkelt sätt publicera egen information.

De traditionella databaserna fanns långt innan webben uppstod och var tidigare tillgängliga på andra sätt, t.ex. genom direkt uppkoppling med ett modem. Idag har de databaser du möter på nätet ett s.k. webbgränssnitt som gör det möjligt att söka i databasen via webben.

Till skillnad från sökmotorerna läggs informationen i databaserna inte till på helt automatisk väg, utan inmatningen sker under kontrollerade former av redaktörer. Bilden nedan visar att redaktörer står för inmatningen i indexet, som tillsammans med gränssnittet utgör databasen.

Fig. En traditionell databas uppbyggnad. Jämför med sökmotorernasuppbyggnad i kapitel 2.

Databaser är viktiga hjälpmedel för att effektivt söka information. Vanliga typer av databaser är:

  • Bibliotekskataloger som visar vilken litteratur som finns vid ett eller flera bibliotek
  • Referensdatabaser som ger hänvisningar till litteratur (t.ex. tidskriftsartiklar eller vetenskapliga rapporter), innehåller ibland abstracts, en kort sammanfattning av innehållet
  • Faktadatabaser som innehåller fakta, inte hänvisningar, t.ex. statistik och uppslagsverk
  • Fulltextdatabaser som innehåller hela texter, t.ex. vetenskapliga tidskriftsartiklar.

Databasernas kännetecken

Databasen fylls på av redaktörer

Det ger ett utvalt och kontrollerat innehåll. Formen som informationen lagras i är också fast. Tydliga fält fylls i med metainformation (information om information) på ett standardiserat sätt. I många databaser används också en kontrollerad vokabulär (ämnesord) som gör att det går lättare att finna allt i ett visst ämne.

Kontrollerade sökningar kan göras

Genom att innehållet i databasen är väl reglerad till formen möjliggörs kontrollerade sökningar. T.ex. kan man söka i specifika fält (författare, år…). Man kan vanligtvis också använda de booleska operatorerna (AND, OR, NOT) för att kombinera sökord. Även avancerade söksträngar kan ofta kombineras på olika sätt.

Skillnader mellan olika databaser

Databaser skiljer sig åt på olika sätt:

  • Ämnesinnehåll: Innehåller databasen ett ämne eller flera närliggande ämnen?
  • Geografisk täckning: Är innehållet avgränsat geografiskt? Är det t.ex. bara artiklar från Lunds universitet i databasen?
  • Språklig täckning: Vilka språk tas med i databasen? Är det t.ex. bara engelskspråkiga forskningsresultat i databasen?
  • Typer av material: Är det bara tidskriftsartiklar i databasen, eller även böcker och andra publikationer?
  • Olika tidsperioder: Vilken tidsperiod täcker databasen, när påbörjades informationsinsamlandet och är det avslutat, och i så fall när? Om databasen t.ex. innefattar artiklar ur olika tidskrifter, när påbörjades indexeringen av varje enskild tidskrift?

Samma databas kan vara tillgänglig på olika sätt, fritt på webben och från olika databasföretag (ett exempel är Thomson www.thomson.com). Databasföretagen tillgängliggör databasen med sin plattform och därmed kan det vara stora skillnader i gränssnittet och dess funktionalitet.

Val av databas

Vilken databas som bör användas styrs av många faktorer:

  • Vilken information behövs: böcker, tidskriftsartiklar eller dagstidningsartiklar?
  • Vilken tid står till förfogande att skaffa fram materialet?
  • Ska det vara svenska eller internationella förhållanden?
  • Begränsningar i språk – endast på svenska?
  • Ska det vara vetenskapligt material?
  • Tillgång till databasen?

Exempeldatabas: ERIC

ERIC står för Education Resources Information Center och innehåller bibliografisk information, dvs. en referensdatabas som inte innehåller någon fulltext. Posterna i ERIC beskriver artiklar och böcker och varje post innefattar både ämnesord och korta abstracts, en kort beskrivning av innehållet.

Databasen har pedagogiskt innehåll men innefattar även angränsande forskningsområden, som t.ex. informationsvetenskap.

ERIC är tillgänglig både via traditionella databasleverantörer (t.ex. Dialog) och fritt på webben (www.eric.ed.gov). ERIC är en amerikansk databas, finansierad av statliga medel.

Fig. ERIC Advanced search (www.eric.ed.gov)

Jämförelse traditionell databas – sökmotor

I jämförelse med traditionell databas har sökmotorerna omfattande datainsamling, som sker automatiskt och därför är relativt okontrollerad. I databaserna görs datainsamlandet av människor efter uppsatta regler.

Sökmotorerna använder avancerad återvinningsteknik och komplex relevansberäkning (se kapitel 2), allt för att presentera en så bra träfflista som möjligt. Men detta ger användaren mindre kontroll. I databaserna är det ofta tvärtom, någon avancerad relevansberäkning finns inte. I databaserna presenteras träfflistan ofta i bokstavsordning eller efter datum och i många fall kan man välja sorteringsordning. Men det mesta av strukturerandet och urvalet får användaren göra själv, därför är ämnesorden speciellt viktiga vid sökning i databaser. Att söka med ämnesord är ett sätt att försäkra sig om en viss relevans i sökresultaten.

I en referensdatabas söker man i databasen efter information om information, sökningen sker i standardiserad information om artiklar och rapporter. Innehållet i databasens poster kan helt sakna språklig likhet med dokumentet det handlar om, innehållet presenteras på ett enhetligt sätt genom ämnesord och abstract. I sökmotorernas index söker man efter helt eller delvis indexerade webbsidor och andra filtyper, dvs. man söker ”direkt” i informationen. Vid sökning i sökmotorer får man utgå ifrån vad som står på webbsidan eller i dokumentet istället för att utgå ifrån noggrant strukturerade poster.

Söka i databaser

Ämnesordslista eller tesaurus

Databaser har ofta ämnesordslistor tillgängliga i databasen. I listorna presenteras de kontrollerade ämnesord som redaktörerna använder för att beskriva innehållet vid inläggning av posterna. En tesaurus är en ordlista där relationerna mellan orden är definierade. Tesaurusen är oftast hierarkisk, dvs. ämnesorden är indelade i över- och underordnade termer. På engelska kallas ett kontrollerat ämnesord för descriptor.

Sökord

När databasen är vald är det dags att precisera sökfrågan med ord som ringar in ämnet. Viktigt att tänka på är:

  • Finns det synonymer eller snarlika ord?
  • Är sökordet alltför specifikt eller alltför generellt? Sökordet måste relateras till innehållet i databasen, sökordet Internet kanske är alltför vanligt i en databas innehållande datavetenskapliga texter.
  • Är ordet rättstavat? Finns det alternativa stavningar?
  • Används singular eller plural?
  • Finns det någon ämnesordlista eller tesaurus i databasen? Leta i beskrivningen av databasen, troligtvis finns det en länk till ämnesordlistan eller tesaurusen.

Ämnesord

Ämnesord från ämnesordlistan eller tesaurusen är alltid att föredra. I en tesaurus beskrivs varje ämnesord i en post. Ämnesordet förklaras kort i något som kallas scope note. Överordnade och underordnade ämnesord till det uppslagna ordet finns med, tillsammans med närbesläktade ämnesord. Även tidigare använda ämnesord som nu blivit ersatta av det aktuella ämnesordet.

Fig. Ämnesordet ”search engines” i ERIC:s tesaurus.

I posten ovan beskrivs ämnesordet search engines i ERIC:s tesaurus. Search engines är tillagt som ämnesord 2002 och används nu istället för de tidigare ämnesorden internet search engines och web search engines.

Titta alltid i ämnesordindexet/tesaurusen efter vilken term som fördras. Och välj om möjligt att söka i ämnesordsfältet.

Studera posterna

Studera hur posterna ser ut, deras uppbyggnad och innehåll. I bilden nedan visas en post i databasen ERIC. Fälten i databasen står till vänster. Speciellt intressant är det tredje fältet, descriptors, där postens ämnesord står. I exemplet ovan är titeln Who’s Afraid of Google och artikeln har ämnesorden: Internet, Information Seeking, Search Strategies, Library Services och Online Searching. I abstracten som skrivits om artikeln kan man få en uppfattning om innehållet.

Fig. En post i ERIC.

Fritextsökning – fältsökning

I databaser kan man vanligtvis välja mellan att göra en fritext, dvs. söka i alla fälten, eller göra en fältsökning, söka i ett visst fält, t.ex. titeln. Söker man i titelfältet så får man bara träff på de dokument som innehåller sökordet i titeln, inte alla de dokument som behandlar ämnet. Man kan göra fältsökningar även i sökmotorer på webben. Genom sökmotorns söksyntax går det att söka bara i webbsidans titel. I Google skriver man title:anatomisk, om man vill ha sidor med anatomisk i titeln. Med fritextsökning får man fler träffar i en databas, men antalet dåliga träffar ökar också. Välj att söka i specifika fält så långt det går, träffarnas precision ökar. Söker du material om eller av Astrid Lindgren?

Trunkering

Trunkering innebär att söka på olika ändelser på en ordstam. Vanligtvis läggs * eller ? till efter ordstammen. Specifik information finns i databasernas hjälptexter.

Exempel: undervis* ger träff på:
undervisa
undervisning
undervisningen
undervisningsmaterial
undervisningsmetoder
osv.

Trunkering kan ge stora mängder av träffar, men i kombination med andra sökord och sökbegränsningar är trunkering ett effektivt hjälpmedel.

Ämnesord i databaser

I databaser används speciella ord, s.k. ämnesord, för att beskriva innehållet i dokumenten. Ämnesorden kan vara inordnade i ett system, i en tesaurus, där orden även är nivågrupperade med överordnade termer och med underordnade termer. Ämnesorden är ett sätt att söka upp information i ett ämne. För att få reda på vilka ord som används i den aktuella databasen kan man gå in i ämnesordslistan och titta. Där kan det också finnas hänvisningar till andra ord istället för det uppslagna.

Ett exempel är en artikel om gårdar i Kronoberg på 1300-talet. Den kan få ämnesorden: gårdar, 1300-talet, medeltiden, historia, Kronoberg, Småland, Götaland och Sverige

Ett sätt att söka med hjälp av ämnesord är att när man hittat en bra träff, så tittar man vilka ämnesord som den har. Sen söker man på de upphittade ämnesorden och då ska man få liknande träffar.

Leave a Reply

Your email address will not be published. Required fields are marked *