HOME HTML ASP PHP JAVASCRIPT C# Makaleler Örnekler Kod Ekle  
 
     
  Windows7 IIS Kurulumu
Windows7 PHP Kurulumu
Robots.txt Nedir
Arama Motorları
AJAX GET POST
DMOZ'a Kayıt
JQuery Nedir
MOOTools Nedir
ASP Örnekler Samples
PHP Örnekler Samples
JavaScript Örnekler Samples

Robots.txt Nedir? Dosya Formatı Nasıldır?

Çoğu web geliştirici ve web tasarımcı arama motoru robotları ve robots.txt hakkında fazla bilgiye (belki de hiç) sahip değildir. Arama motoru robotları web sitelerini ziyaret eden, bir sayfayı okuduktan sonra sayfada bulduğu önce iç sonra da dış linklere ziyarette bulunan yazılımlardır. Buldukları ve okudukları sayfaları ait oldukları arama motorunun veritabanına kaydederler.

Bir arama motoru robotu sitenizi ziyaret ettiğinde arayacağı ilk şey “robots.txt” dosyasıdır. Bu dosya sitenin ana dizininde olmalıdır. Dosya adının küçük harflerden oluşmasına dikkat edin. *nix (Unix, Linux) sistemler dosya adlarında büyük-küçük harf duyarlıdır.

Örnek: http://www.kodornekleri.com/robots.txt

Bu dosya arama robotuna hangi sayfaları gezmesi ya da gezmemesi gerektiğini söylemek için kullanılır. Bu sisteme “Robotları Uzak Tutma Standardı” denir. (The robots exclusion standard)

Robots.txt dosya formatı

robots.txt dosya formatı basit olmakla beraber özel bir formattır. “User-agent:” ve onu takip eden “Disallow:” satırlarından oluşur.

“User-agent:” satırı arama robot adına işaret eder. * kullanılarak tüm arama motor robotlarına referans verilebilir.

Örnek


User-agent: *
Disallow: /cgi-bin/
 

Tüm arama motorlarını web sitenizin belli bir dizininden uzak tutmak için yukarıdaki kodlar yazılır.

Burada * tüm arama motorlarını ifade etmekte, /cgi-bin/ ise arama motor robotu tarafından gezilmesini istemediğiniz dizini belirtmektedir. Bu dizin altında başka dizinler varsa onlar da gezilmeyecektir.

Sadece belli bir arama motor robotunu engellemek için ise :

Örnek


User-agent: googlebot
Disallow: /cgi-bin/
 

Burada ise sadece google arama robotunun cgi-bin dizinini ziyaret etmesi engellenmektedir.

Boşluk ve Yorumlar (Comment)

Dosya içine boşluk bırakılabilir ve yorum eklenebilir. Bazı robotlar aynı satırda hem komut hem de yorum olduğunda şaşırabileceğinden (robotlar çok akıllı olmadığından) yorumlar ayrı satırlara yazılmalıdır. Yani;

User-agent: googlebot #Google Robot

yerine

User-agent: googlebot
#Google Robot

kullanmak daha akıllıca olur

Yorum satırları# karakteri ile başlar. Robot bu karakteri gördüğü zaman satırın geri kalanını gözardı eder ve diğer satıra geçer.

Boşluk, dosya içinde kelimeler arasındaki boşlukları (klavyedeki uzun çubuğa basarak eklenir ve boş satırları ifade etmektedir. Komutların bulunduğu satırların başlangıç kısmında boşluk olmaması gerekir.

Yaygın Robot Adları

İşte internetteki en büyük arama motorlarına ait arama robotlarının (örümcek, sürüngen de denir ama biz robotu tercih ediyoruz) adları:

  • Googlebot – Google.com
  • Inktomi Slurp – HotBot.com
  • IA Archiver – Alexa
  • AskJeeves – AskJeeves.com

Örnekler:

Örnek


User-agent: *
Disallow:
 

Burada robotlara tüm sayfaları ziyaret edebileceğini ifade edilmiştir.

Örnek


User-agent: *
Disallow: /
 

Burada robotlara hiçbirşeyi okumamalarını hiçbir sayfayı arama motoruna eklememelerini söylenmektedir.

Örnek


User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /downloads/
Disallow: admin.php
 

Burada tüm robotlara cgi-bin,images ve downloads dizinlerinden ve admin.php sayfasından uzak durmalarını söylenmektedir.

Robots.txt hakkında daha fazla bilgi

Robots.txt dosyaları hakkında daha fazla bilgi robotstxt.org sitesinde bulunabilir. Robots.txt kullanımı mecburi olmamakla beraber, kullanılmasının arama motorlarında üst sıralarda çıkmada etkin olduğu görüşü hakimdir.



 
 
  email : info@kodornekleri.com