Olika typer av spam

(tillägg till kapitel 10)

Web spam

På webben är synlighet mycket viktigt och de flesta navigerar numera på webben genom sökningar i sökmotorerna. Därför är en webbsidas rankning mycket viktig – “syns man inte, finns man inte”.

Trots att hur sökmotorerna fungerar är välbevarade företagshemligheter vet vi en hel del om dem i alla fall. Källor till information är officiella dokument och patent, experimentella försök och erfarenheter från webmasters, samt omvänd ingenjörskonst.

I Witten m.fl. (2007) delas manipulationerna för att rankas bättre, web spam, in enligt taxonomin nedan:

  1. Boosting
    1. Term spam
    2. Link spam
  2. Hiding
    1. Context
    2. Cloaking
    3. Redirection

Boosting [förstärka]

Är tekniker för att öka en sidas ranking genom att skapa konstgjorda sidor eller texter, då för att lura sökmotorerna till högre rankning. Två typer:

Term spam / term boosting [förstärka sökord]

Sökmotorerna ser till hur ofta ett sökord förekommer på en sida, och var på sidan det förekommer, ibörjan av texten, i rubriker, titel eller i metataggarna. Så helst ska en webbsida vara fullpackad med potientiella sökord om man ser till rankningen, men samtidigt behöver den vara läsvärd.(se Fransson s 23-24 och Våge m.fl. 103-106).

Att bra sökord förekommer i länktexter (från andra sidor) är ännu viktigare då de anses vara mer objektiva eftersom det inte är upp till sidskaparen själva att skriva länktexterna till sin egen sida, och därför tillmäts de ett större värde vid relevansberäkningen.

Tidigare var det viktigt att välja sökord till metataggarna, men det är inte så viktigt längre eftersom sökmotorerna för tillfället inte verkar lägga någon större vikt vid dem (efter allt för mycket problem med spam i metataggarna).

Link spam / link boosting [förstärka länkar]

Av flera anledningar är det bra med länkar till en webbsida. En är ankartexten i inlänkarna (se ovan). En annan är länkanalys som PageRank där värdet bestämms av antalet inlänkar och deras PR-värde. Ett högt PR-värde är värdefullt eftersom det inte är frågeberoende, effekten beror inte på vilka sökord som används utan gäller generellt.

Ett sätt att skapa en stor webbplats med mycket interna länkar (och relevant innehåll) där internlänkarna stödjer varandra, men det krävs bra länkar utifrån för att nå en hög PageRank. Det kan man nå genom att skapa flera webbplatser som länkar till varandra, men då krävs det innehåll på dem (unikt innehåll med kvalitet kostar pengar). Ett annat sätt är att skapa länksamlingar som länkar till de sidor man vill höja PR-värdet på. Det är det som kallas länkfarmar och som sökmotorerna bestraffar eller tar bort ur sina index om de kommer på dem.

En annan, lite nyare, variant är att publicera kommentarer med länkar på t.ex. bloggar och nyhetssajter. Då får man den länk från en respektabel webbsida och kan utnyttja dess PR. Här pågår också ett ständigt mellan spammare och webmasters.

Hiding [dölja]

Är tekniker för att dölja den konstgjorda informationen, dvs. kunna leverera olika information till sökmotorer och till mänskliga besökare. Tre typer:

Context / content hiding [dölja innehåll]

Tekniskt sett är det lätt i HTML att dölja text. En text med sökord som bara sökmotorerna ska se kan t.ex. gömmas i jätteliten textstorlek i samma färg som bakgrunden. På samma sätt kan man dölja länkar där länkentexten (ankartexten) kan utgöras av en bild som är en pixel (bildpunkt) stor och i samma färg som bakgrunden. Sökmotorerna kontrollerar troligtvis ständigt att texten är i läslig storlek och färg numera per automatik, annars indexeras troligen inte sidan.

Cloaking [falskskyltning]

Går ut på att visa en sida för sökmotorerna och en annan för besäkare. Det går till så att när sökmotorspindeln hämtar hem sidan får den andra sidor att indexera än alla andra får se. Troligen dubbelkontrollerar sökmotorerna sidorna och straffar de sidor som upptäcks. 

Redirection [omdirigering]

Ett annat sätt är att direkt omdirigera besökaren till en annan sida. Sidan som inte visas alls kallas för “doorway” och används bara för olika typer “boosting”. Detta är också ett sätt att skapa sidor som indexeras av sökmotorerna men inte ses av besökarna.

Kommentar

Boosting-teknikerna används till en viss grad av även av “goda” sökoptimerare. Sidor optimeras med lagom många sökord (och dess synonymer) i rätt omfattning för att nå effekt i rankningen, men inte bestraffas och fortfarande innehålla en läsvärd text.

Hiding-teknikerna märks inte lika mycket längre i sökmotorerna. Tidigare (för flera år sedan) tycker jag det var vanligare att man kom till helt irrelevanta sidor från en länk i träfflistan som verkade ok. Dels tror jag att sökmotorernas index uppdateras något oftare nu i genomsnitt, men jag tror också att mycket av de här problemen stoppas på automatisk väg tidigare i processen (innan vi märker av det som användare).

Sätt att synas

Punkterna kommer ifrån Witten m.fl. s 162.

  1. sökordsannonsering
  2. anlita SEO-konsult (optimering av webbplats + en del av teknikerna ovan)
  3. löpa länkar från sidor med hög PageRank (länkfarmar)
  4. köpa sidor med hög PageRank (PR består länge trots ändrat innehåll i och med att få kollar och uppdaterar sina länkar ofta, webben har en inneboende tröghet)

Källor

Fransson, J. (2007). Effektivare informationssökning på webben: en handbok i konsten att söka information. Ronneby: HEXA.

Witten, I.H., Gori, M. & Numerico, T. (2006). Web dragons: inside the myths of search engine technology. Boston: Morgan Kaufmann.

Våge, L., Dalianis, H. & Iselid, L. (2008). Informationssökning på Internet. (2. [utök.] uppl.) Lund: Studentlitteratur.


1 comment for “Olika typer av spam

Leave a Reply

Your email address will not be published. Required fields are marked *