Vores idé er at hvis mange webmastere blokerer samme robot, så er det formentlig fordi den set med danske webmasteres øjne bidrager med mere negativt end positivt. Det kan være at den belaster serveren uden at skabe trafik. Det kan være at den deciceret har onde hensigter.
Denne information kan vi bruge til at lave en liste over uønskede robotter, og den gør vi tilgængelig for alle webmastere, således at det bliver lettere for alle webmastere at blokere de
uønskede robotter".
Fordelen for dig som webmaster er at du her på sitet finder en liste over robotter som du skal overveje at blokere.
Ideen med robots.dk er at:
a) vejlede hjemmesideejere i brugen af filen "robots.txt" på deres hjemmesider
b) opliste uønskede og "ondartede" robotter mhp at hjemmesideejere kan forsvare sig mod disse
c) vejlede om "ondartede" robotter
Til dette har vi hentet robots.txt filen (hvis eksisterende) fra over 500.000 danske domæner. Desuden analyserer vi firmaets egne logfiler for at finde tegn fra f.eks hackerangreb.
LIGE NU: Vi arbejder med at lave en "robots.txt" generator udfra de danske robots.txt filer vi har hentet og analyseret. Den forventes på nettet medio august. Indtil da kan du hente et af eksemplerne på "Eksempler" siden eller benytte en udenlandsk generator, som jo naturligvis ikke tager forbehold for danske forhold. Du kan finde flere via links-siden.
Vores robot fra robots.dk hentede desuden et antal robots.txt filer i 2011, på sigt, kan det være at vi offentliggør udviklingen over 10 år, men det bliver tidligst ultimo 2021.
Vi bruger også andre metoder til at analysere robotters adfærd mhp senere publicering på robots.dk :
Tracking-pixel på en lang række af Breum Datas websites herunder robots.dk, hermed kan besøgende på firmaets hjemmesider inkl www.robots.dk skelnes fra visse robotter der forsøger at ligne almindelige brugere (idet de fleste robotter ikke henter images som mennesker gør), og firmaet har 2 års logfiler med "ondartede" robotter. Disse indsamlede data skal også bruges til hjemmesiden
Logfilerne gennem alle årene fra robots.dk skal også bruges til at identificere robotter der decideret går efter at hacke hjemmesider. F.eks bruger firmaet ikke wordpress, så alle forsøg på at hente filen "/wp-login.php" er ondsindede. Primo februar gør vi en liste tilgængelig over robotter der henter denne side vil have stor betydning for webmastere der ønsker at beskytte sig mod denne type angreb. Firmaet har alene på denne måde indsamlet IP-adresser på 39 af disse ondsindede robotter.