Robots.dk

Programstump 1:
"Hold dig væk"

Programstumpen beder alle robotter om at holde sig væk fra hele websitet.

Programstump 3:
"Googlebot velkommen"

Programstumpen tillader Googlebot alt, men andre robotter intet.

Bemærk at vi ikke bruger "Allow: \" som betyder det samme, men som ikke var i den oprindelige standard, og dermed ikke understøttes af alle robotter.

Programstump 3:
"Googlebot sitemap"

Programstumpen tillader Googlebot alt, og fortæller hvormit sitemap er. Denne stadnard er ikke blandt de originale, men f.eks google understøtter den.

robots.txt Hvorfor, hvad og hvor

Den helt basale viden om robots.txt

De fleste der kommer her på siden, kommer fordi deres webserver errorlogs er fuld af linier som siger at filen robots.txt ikke er fundet. Hvis du udelikkende leder efter en quickfix på det, så kan vi fortælle at du kan lave en tom fil der hedder robots.txt og lægge den helt ude i roden af webserverroden (der hvor du har din indexfil). Vi anbefaler dog at du læser lidt videre, for du kan nemt lave en fil der samtidigt gør andet for dig end at løse dette ene problem.

En robot er et program der kører på en server som henter indhold fra dit domæne. Et eksempel er robotten "Googlebot" som besøger dine hjemmesider, således at de kan blive indekseret i søgemaskinen google.com .

En meget stor gruppe robot-ejere blev i 1994 enige om en række regler for robotter. deres konsensus er tilgængelig i nyeste version her

Det er vigtigt at forstå at der ikke står nogen organisation bag, og at der ikke er garantier for at hverken nutidige eller fremtidige robotter overholder de aftalte retningslinier. Alligevel er retningslinjerne fulgt af de største og vigtigste robotter.

Der er et stigende antal robotter der ikke overholder retningslinierne, og det er godt at forstå at visse funktioner af filen decideret kan misbruges.

Det giver god mening at bruge filen, men visse funktioner skal man tænke over.

Siden 1994 er der tilkommet yderligere funktioner såsom sitemap, allow og crawl delay. Imidlertid er disse ikke officielle og understøttes ikke af alle robotter. Det kan nu godt betale sig at benytte sig af disse alligevel, da sitemap f.eks understøttes af Google.

Hovedideen i filen er at man kan forhindre "artige" robotter i at gøre ting man ikke ønsker.

SiteMap og Allow som indikerer noget man ønsker er tilkommet senere og man kan ikke være sikker på at selv "artige" robotter følger disse.

Hvorfor ønsker man ikke bare at robotterne henter alle sider altid?

Det kan der være mange grunde til:
Det kan nedsætte serverhastigheden, hvis hundredevis af robotter uhæmmet henter alle sider.
Der an være sider der reagerer uhensigtsmæssigt ved robotbesøg, f.eks kontaktformularer der sender emails af sted ved en fejl, indkøbsvogne der gør at reelle kunder får at vide at varen er udsolgtm søgefunktioner der påvirker top-10 lister, eller scipts der poster beskeder på sitet.
Der kan være information på visse sider, man ikke ønsker at robotterne skal indeksere, f.eks telefonnumre eller emails på medarbejdere. eller information der hurtigt forældes som lagerbeholdning eller sortiment.
Det er dog vigtigt at indse at robotter med dårlige hensigter formentlig ikke følger regler overhovedet. Så man kan nok ikke bruge robots.txt til at forhindre at spam-robotter henter alle dine sider mht at udtrække email-adresser fra disse mpg at sendespam til dem. Det bør man forhindre på andre måder, som ikke beskrives på dette site (endnu?)

De oprindelige (og vigtigste) linier i filen er "User-agent: " og "Disallow: ". "User-agent" accepterer "*" som input, hvilket betyder at de efterfølgende linier gælder alle robotter.

På siden "Eksempler" kan du se forskellige eksempler på brugen. Og på denne side kan du se "appetizerz" som ikke er hele filer, men dele af robots.txt

Programstump 2:
"Kom bare"

programstumpen tillader alle robotter at hente hvad de vil dra websitet. Faktisk har denne præcis samme effekt på robotterne, men man slipper for error log entries.

Programstump 4:
"Kun Google"

programstumpen tillader Bingbot adgang til alt, men beder ´robotten om at vente 10 sekunder mellev hver download, for ikke at belaste serveren. Denne funktion var ikke i de oprindelige regler, men Bingbot respekterer den alligevel, og det er godt, for den kan godt være lidt hyrtig en gang imellem.