Findability thesis online

My PhD thesis with the title Navigation, findability and the usage of cultural heritage on the web: an exploratory study is available online:

The abstract in English is followed by an abstract in Swedish.

Abstract

The present thesis investigates the usage of cultural heritage resources on the web. In recent years cultural heritage objects has been digitalized and made available on the web for the general public to use. The thesis addresses to what extent the digitalized material is used, and how findable it is on the web. On the web resources needs to be findable in order to be visited and used. The study is done at the intersection of several research areas in Library and Information Science; Information Seeking/Human Information Behaviour, Interactive Information Retrieval, and Webometrics.

The two thesis research questions focus on different aspects of the study: (1) findability on the web; and (2) the usage and the users. The usage of the cultural heritage is analysed with Savolainen’s Everyday Life Information Seeking (ELIS) framework. The IS&R framework by Ingwersen and Järvelin is the main theoretical foundation, and a conceptual framework is developed so the examined aspects could be related to each other more clearly. An important distinction in the framework is between object and resource. An object is a single document, file or html page, whereas a resource is a collection of objects, e.g. a cultural heritage web site. Three webometric levels are used to both combine and distinguish the data types: usage, content, and structure. The interaction between the system and its users’ information search process was divided into query dependent and query independent aspects. The query dependent aspects contain the information need on the user side and the topic of the content on the system side. The query independent aspects are the structural findability on the system side and the users search skills on the user side. The conceptual framework is summarised in the User-Resource Interaction (URI) model.

The research design is a methodological triangulation, in the form of a mixed methods approach in order to obtain measures and indicators of the resources and the usage from different angels. Four methods are used: site structure analysis; log analysis; web survey; and findability analysis. The research design is both sequential and parallel, the site structure analysis preceded the log analysis and the findability analysis, and the web survey was employed independent of the other methods. Three Danish resources are studied: Arkiv for Dansk Litteratur (ADL), a collection of literary texts written by authors; Kunst Index Danmark (KID), an index of the holdings in the Danish art museums; and Guaman Poma Inch Chronicle (Poma), a digitalized manuscript on the UNESCO list of World cultural heritage. The studied log covers all usage during the period October to December 2010.

The site structure is analysed so the resources can be described as different levels, based on function and content. The results from the site structure analysis are used both in the log analysis and the findability analysis, as well as a way to describe the resources. In the log analysis navigation strategies and navigation patterns are studied. Navigation through a web search engine is the most common way to reach the resources, but both direct navigation and link navigation are also used in all three resources. Most users arrive in the middle level in ADL and KID, at information on authors and artists. On average cultural heritage objects are viewed in half of the session. In the analysis of the web survey answers two groups of users’ are distinguished, the professional user in a work context and users in a hobby or leisure context. School or study as a context is prominent in Guaman Poma, the Inca Chronicle. Generally are pages about the cultural heritage more frequently visited than the digitized cultural heritage objects.
In the findability framework six aspects are identified as central for the findability of an object on the web: attributes of the object, accessibility, internal navigation, internal search, reachability and web prestige. The six aspects are evaluated through seven indicators. All studied objects are findable in the analysis using the findability framework. A findability issue in KID is the use of the secure https protocol instead of http, which leads to the objects in KID having no PageRank value in Google and thereby a lower ranking in comparison to similar objects with a PageRank value. The internal findability is reduced for the objects in top of all three resources, e.g. the first page, due to the focus of the internal search engine on the cultural heritage objects. Several possible adjustment or developments of the findability frameworks is discussed, such as changing the weightning between the aspects measured, alternative scores and automated measuring.

In conclusion, the investigation adds to our knowledge about how resources with digitalized cultural heritage are accessed and used, as well as how findable they are. The thesis provides both theoretical and conceptual contributions to research. The IS&R framework has been adapted to the web, the information search process was split into query dependent and query independent aspects, and a whole findability framework has been developed. Both the empirical findings and the theoretical advancements support the development of better access to web resources.

Abstract på svenska

Avhandlingen undersöker användningen av kulturarvsresurser på webben. Under senare år har kulturhistoriska objekt digitaliserats och gjorts tillgängliga på webben för allmänheten. I vilken utsträckning det digitaliserade materialet används och hur lätt det är hitta på webben studeras i avhandlingen. Webbresurser måste vara hittbara för att de ska besökas och användas. Studien görs i skärningspunkten mellan flera forskningsområden inom Biblioteks- och informationsvetenskap: Information Seeking/Human Information Behaviour, Interactive Information Retrieval och Webometrics.

Avhandlingens två frågeställningar fokuserar på olika aspekter av projektet: (1) hittbarheten på webben; och (2) användning och användare. Analysen av användningen av kulturarvsresurserna bygger på Savolainens Everyday Life Information Seeking (ELIS) ramverk. Ingwersen och Järvelins IS&R-ramverk den viktigaste teoretiska grunden och ett konceptuellt ramverk har utvecklas så att de undersökta aspekterna tydligare kan relateras till varandra. En viktig distinktion är mellan objekt och resurser. Ett objekt är ett enda dokument, fil eller html-sida, medan en resurs är en samling av föremål, t.ex. en webbplats med kulturarv. Tre webometriska nivåer används för att både kombinera och skilja datatyper: användning, innehåll och struktur. Samspelet mellan användare och system i informationssökningsprocessen är uppdelad i frågeberoende och frågeoberoende aspekter. Frågeberoende aspekter är informationsbehovet på användarsidan och ämnesinnehållet på systemsidan. Frågeoberoende aspekter är den strukturella hittbarheten på systemsidan och användarens färdigheter i sökning på användarsidan. Det konceptuella ramverket sammanfattas i User-Resource Interaction (URI) modellen.

Forskningsdesignen är en metodologisk triangulering, i form av ett mixed methods approach för att få olika bilder av de studerade resurserna och dessas användning. Fyra metoder används: analys av webbplatsens struktur (site structure analysis), logganalys, webbenkät och analys av hittbarheten (findability analysis). Forskningsdesignen är både sekventiell och parallell, analysen av webbplatsernas struktur föregår logganalysen och hittbarhetsanalysen, och webbenkäten används oberoende av de andra metoderna. Tre danska resurser studeras: Arkiv för Dansk Litteratur (ADL), en samling av litterära texter skrivna av författare, Kunst Index Danmark (KID), ett index av innehaven i de danska konstmuseerna och Guaman Poma Inch Chronicle (Poma) ett digitaliserat manuskript som är med på UNESCOs lista över världskulturarv. De studerade loggfilerna omfattar all användning under perioden oktober till december 2010.

Genom analysen av webbplatsernas struktur så kan resurserna beskrivas som olika nivåer, baserat på funktion och innehåll. Resultaten från analysen används både i logganalysen och i hittbarhetsanalysen, liksom ett sätt att beskriva resurserna i sig. I logganalysen studeras navigationsstrategier och navigeringsmönster. Navigation via en webbsökmotor är det vanligaste sättet att nå resurserna, men både direktnavigation och länknavigation används i viss utsträckning i alla tre resurser. De flesta användare anländer i mittennivån i ADL och KID, där det finns information om författare och konstnärer. Kulturarvsobjekt besöks i genomsnitt i hälften av sessionerna. I analysen av svaren på webbenkäterna har två grupper av användare identifierats, professionella användare i en arbetskontext och användare i ett hobby- eller fritidsammanhang. Kontexten skola eller studier är bara framträdande i Guaman Poma, Inka krönikan. Generellt besöks sidor om det digitaliserade kulturarvet i större grad än de digitaliserade objekten i sig.
Sex aspekter är identifierade som centrala i hittbarhetsanalysen för ett objekts hittbarhet på webben: objektets attribut, tillgänglighet, intern navigering, intern sökning, nåbarhet och webbprestige. De sex aspekterna utvärderas genom sju indikatorer. Resultatet av analysen är att alla studerade objekt är hittbara. Ett problem i KID är användningen av det säkra https-protokollet i stället för http, vilket leder till att objekten i KID inte har något PageRank-värde i Google och därmed en lägre rankning i jämförelse med liknande objekt som har ett PageRank-värde. Den interna hittbarheten är reducerad för objekten i toppen på alla tre kulturarvsresurserna pga. att fokus för de interna sökmotorerna ligger på de digitaliserade kulturarvsobjekten och övrigt ämnesorienterat innehåll. Flera möjliga justeringar eller utecklingsmöjligheter av hittbarhetsramverket diskuteras, t.ex. annan viktning av aspekterna, alternativa poängsättningar och automatiserad mätning.

Sammanfattningsvis så ökar avhandlingen kunskapen om hur webbresurser med digitaliserat kulturarv nås och används, samt hur hittbara resurserna är. Avhandlingen bidrar till forskningen både teoretiskt och konceptuellt. IS&R-ramverket har anpassats till webben, informationssökningsprocessen har delats upp i frågeberoende och frågeoberoende aspekter, och en metod för analys av hittbarhet har utvecklats. Både de empiriska resultaten och de teoretiska framstegen stödjer utvecklingen av webbresursers nåbarhet och hittbarhet.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.