Varför ska man använda robots.txt
Syftet med filen ”robots.txt” är att tala om för sökmotorer som Google, Bing och andra vad de ska indexera och inte.
I normala fall vill man att sökmotorerna ska indexera allt och då behöver man inte någon robots.txt, men det finns en bra anledning till att inte använda sig av den, även i de fall då man vill blockera för sökmotorerna.
Vill du inte att en sökmotor ska komma åt vissa kataloger eller filer, så lägger du till dem i din robots.txt enligt följande:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Problemet är att du då talar om för sökmotorerna att dessa kataloger verkligen finns och det ju upp till varje sökmotor att respektera eller inte respektera det du angivit i din robots.txt.
Att du har en robots.txt med Disallow innebär inte att du förhindrar sökmotorerna från att indexera något, utan du ber bara dom snällt att inte göra det.
Det finns gott om ”sökmotorer” som krälar runt på nätet och söker efter sårbarheter och för dessa är en blockering snarare en uppmaning att snoka vidare.
Om du har länkar på din sida som pekar mot sidor som du inte vill att sökmotorerna ska indexera, av någon anledning, så kan du ange ”rel=”nofollow” i länken. Precis som i fallet med robots.txt, så förhindrar det inte någon sökmotor från att följa länken, men förhoppningsvis respekterar de din önskan.
I WordPress finns ett par kataloger som sökmotorerna inte behöver indexera och det är wp-admin och wp-include. Men talar du inte om för sökmotorerna att dessa kataloger finns, så kan de endast hitta dem genom att ”manuellt” söka efter dem, exempelvis genom att försöka gå till dindomän.se/wp-admin.
Sökmotorer som är ute efter att hitta sårbarheter gör detta konstant och det är omöjligt att göra något åt det, men som standard, så är dessa kataloger inställda på att inte tillåta listning av innehållet.
I fallet med WordPress, så är det en av de vanligaste CMS-plattformarna och det är inga konstigheter att ta reda på exakt hur katalog och filstrukturer ser ut.
Som tur var, så var även utvecklarna bakom WordPress medvetna om detta och har haft detta i åtanke när de utvecklade systemet, så WordPress är en väldigt säker plattform, trots att all källkod finns tillgänglig för var och en.
Om och när en säkerhetsbrist upptäcks dröjer det inte länge förrän någon försöker utnyttja den, så det gäller att du håller ditt system uppdaterat.
Vad gäller robots.txt, så tycker jag du ska skrota den. Det enklaste är att lägga upp en helt tom fil döpt till ”robots.txt”.