Burak Gulbahce …

Burak Gulbahce`nin Blogu

Robots.txt nedir?

Web sunucunuzda bulunan butun dosyalar web tarayici, orumcek, vs. adi verilen cesitli minik yazilimlar sayesinde ziyaret edilir ve incelenir. Bunlardan baslicalari olan Google`in kullandigi googlebot, Yahoo`nun kullandigi Slurp, Microsoft`un kullandigi MSNBot, sunucularinizdaki dosyalari gezerek, tarar ve indekslenmesi icin iclerindeki bilgiyi alir.
Ancak sunucunuzda indekslenmesini istemediginiz dosyalari da barindirma ihtimaliniz oldugundan dolayi bu asamada devreye robots.txt dosyasi girer. Robots Exlusion Protocol adi verilen bu sistem (yaygin olarak robots.txt olarak bilinmektedir) web tarayan orumceklerin belirli yerlere girmemesi icin duzenlenmis bir protokoldur ve sunucunuzdaki cesitli dosyalara erisilmemesi sansini size vermektedir. Bu protokolu baslica arama motorlari tarafi ortak olarak desteklemektedir ve butun arama motorlari icin ayri ayri yaratmak yerine tek bir robots.txt dosyasi yaratmaniz yeterli olmaktadir.
Ornek vermek gerekirse:
Eger robots.txt dosyaniz su sekildeyse:

User-agent: *
Disallow: /

* isareti butun orumcekleri simgeler, ve siteniz altindaki hicbir dosyanin indekslenmesini istemediginiz belirtir.
User-agent: *
Disallow:

robots.txt dosyasi sunucunuzdaki butun dosyalarin, butun orumcekler tarafindan taranabilecegini ve indekslenebilecegini gostermektedir.

Robots.txt dosyasiyla birlikte orumcek seviyesinde sinirlamalar yapabilirsiniz. Ornek olarak:

User-Agent: Googlebot
Disallow: /ozel/ozeldosya.html

robots.txt girdisi /ozel/ klasoru altinda ozeldosya.html dosyasinin sadece Googlebot icin engellenmesini saglar, ve bu dosya MSNBot, ve Slurp tarafindan ulasilip, indekslenebilir.

Robots.txt hakkinda daha ayrintili bilgi almak icin bu adresi ziyaret edebilirsiniz.  Tum web orumceklerinin listesi icin de buraya goz atabilirsiniz.  Ayrica cesitli sitelerin robots.txt dosyalarini incelemek oldukca faydali olacaktir.