17 Şubat 2013

Robots.txt Oluşturma

Robots.txt dosyası siteye gelen arama motorlarına hangi dosyaların taranıp hangi dosyaların taranmayacağını arama motorlarına bildirir. Bir nevi arama motorlarına yol gösterir. Gelen robotlarda kısıtlanmış dosyaları taramaz ve indexlemez. Örneğin sitenizde admin veya yönetim paneli doslarının indexlenmesini istemiyoruz bunu Robots.txt dosyası içinde belirterek taranmasını kıstlayabiliriz..



Robots.txt dosyasını SEO  uyumlu hale getirmek için neler yapabiliriz kısaca bir göz atalım;
  • Robots.txt içine site haritası dosyasının URL ‘sini ekleyin.
User-agent: *
Disallow:
Sitemap: http://www.siteniz.com/sitemap.xml şeklinde…
  • Eğer sitede resimleriniz ve videolarınız fazla ise onlar içinde ayrı bir site haritası oluşturup robots.txt dosyasına site harita url sini ekleyin.
  • Tüm erişilmesini istemediğiniz dosyaların yönetim veya admin klasörlerinin index dışı bırakıldığına emin olun.
  • Google Webmaster Toola gidin ve Robots.txt nin doğru ayarlanmış olduğundan emin olun.
  • Robot.txt dosyasında yazılması gereken genel sözdizimi şudur.
User-agent: *
Disallow: / klasör/
Burada user-agent: *. Tüm arama robotları için (Google, MSN, Yahoo vs) indexe açık anlamına gelir ve taranması istenir.
Disallow: / klasör/ bu klasörün taranmasını kısıtlar. Alt klasörler de taranmaz unutmayın.
  • Google Robotları için Resimler konumunu belirtme.
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
Eğer resimleriniz fazla ise bunu Google robotları için klasörün bulunduğu yeri belirtmek iyi bir fikirdir. Yukarıdaki örnekte, wp-content/uploads / resimler dizinidir.
  • indexlenmesi istenmeyen URL’leri kısıtlayın
    User-agent: *
    Disallow: / dizin / klasör /
Yukarıdaki örnekte, / dizin / klasör ile tüm URL’ler robot tarafından taranmaz, index dışı bırakılır.
  • Eğer Robots.txt ile sayfalarınızın indexlenmesine engel olamadı iseniz robotlar tarafından indexlenmesini istemediğiniz sayfalara <meta name=”robots” content=”noindex,follow” /> etiketini kullanabilirsiniz.
  • Robots.txt, bir dosya veya klasörü index dışı bırakmanın en emin yolu değildir. Hatalar olabilir. Bunun için sayfalarınızda noindex etiketi kullanabilirsiniz.
  • Robots.txt, Google dizinden bir URL engelleme veya kaldırmak için en emin yol değildir. Bunu halletmek için Google Webmaster Tool içindeki URL Kaldırma Aracı’nı kullanın.
  • URL yolları ve klasör adları küçük harf duyarlıdır, bunun için yazım hataları yapmadığınızdan emin olun.
  • Blogger ve wordpress.com kullanıcıları için Robots.txt oluşturma;
    Blogger kullanıcıları robots.txt dosyasını upload edemezler, bunlar botları kontrol etmek için belirli sayfaların içine robots meta etiketini kullanabilir.
  • Siteniz bir alt dizinde kurulu olsa bile, Robots.txt dosyasının kök dizininde olduğundan emin olun. Bu bir standarttır..