robots.txt Nedir, Nasıl Oluşturulur?
robots.txt Nedir?
Eğer yeni bir site oluşturmuşsanız; arama motorlarına yardımcı olmak için robots.txt dosyasını da oluşturmanız kesinlikle önerilir.
robots.txt dosyası sitenizin bazı bölümlerinin arama motorlarları tarafından indexlenmemesi için kullanılır.
Mesela yeni bir site oluşturdunuz. Sitenizin anasayfasını tamamladınız. Eğer alt sayfaları oluşturmuşsanız ve içeriği sonra eklemeyi düşünüyorsanız; arama motorlarının içerik eklenmemiş sayfaları indexlemesi işinize yaramaz. Bu durumda henüz hazır olmayan sayfalardan arama motoru robotlarını uzak tutabilirsiniz. Daha sonra sayfalara içerik eklediğiniz zaman robots.txt dosyasını değiştirerek robotlara izin verirsiniz.
robots.txt Nasıl Oluşturulur:
Genel Kullanımı:
User-agent: *
Disallow: /
User-agent:
Robot ismi burada belirtilir. * karakteri hepsi anlamına gelir. Yani bütün robotları ifade eder. Mesela User-agent: Googlebot ile sadece google botlarını ifade edebilirsiniz. Ya da User-agent: Scooter ile sadece Altavista botlarını ifade edebilirsiniz. Ama genellikle * ile tamamı ifade edilir.
Disallow:
Robotların ziyaret etmesini istemidiğiniz sayfaları burada belirtirsiniz. Mesela Disallow: / ifadesi ile sitenizdeki bütün sayfalara robotların girişini engellersiniz. Disallow: ifadesi ile de sitenizdeki bütün sayfaları robotların indexlemesini söylemiş olursunuz.
Disallow: /cgi-bin/ ifadesi ile de cgi-bin klasörünün robotlar tarafından indexlenmemesini söylemiş olursunuz.
robots.txt Kullanım Örnekleri:
User-agent: *
Disallow: /
Bütün robotların siteden uzak durmasını sağlar.
User-agent: *
Disallow: Bütün robotların sitedeki bütün sayfaları indexlemesine izin verir.
User-agent: *
Disallow: /cgi-bin/
Disallow: /resimler/
Disallow: /siirler/
cgi-bin, resimler, siirler klasörleri içindeki sayfaları robotlar indexleyemez. Diğer sayfaları indexleyebilir.
User-agent: Googlebot
Disallow: /
User-agent: *
Disallow: Google robotu siteyi indexleyemez. Diğer bütün robotlar siteyi indexleyebilir.
Herhangi Bir Sayfanın İndexlenmesini Önlemek:
Sayfaların meta bölümünden de sayfanın indexlenmesi önlenebilir. Bunu yapabilmek için head tagları arasına aşağıdaki gibi kodlar eklenmelidir. <META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”> Bu metayı eklediğiniz sayfayı robot gördüğü zaman bu sayfayı indexlemez ve sayfadaki linkleri takip etmez.<META content=”index, follow” name=robots>
Bu meta ise bütün robotların sayfayı indexlemesini ve sayfadaki linkleri takip etmesini söyler.
Not: robots.txt dosyası ana dizinde(root) olmalıdır. Alt dizinlere yerleştirilmez.
Bir de sitemap kullanımı var.
Hemen hemen tüm arama motorları, robots.txt dosyasının ana dizinde olup olmadığına bakar. Robots.txt ile arama motorunun siteniz içinde nasıl hareket edeceğini bildiren yönergeler tanımlarsınız. Bunlar hangi dizinlerin arama indeksine dahil edileceği/edilmeyeceği, hangi arama motorunun sitenizi ne zaman veya ne sıklıkla ziyaret etmesi gerektiği (çünkü bazen arama motorları site trafiğinizin en yoğun olduğu zamanlarda daha da yük getirebiliyor) gibi yönergeler olabilir.
Robots.txt nin başka bir özelliği de “Sitemaps auto discovery” . Sitenizde bir sitemap sayfası yer alıyorsa, motorun sitenizi daha iyi indekslemesi için sitemap adresini de belirtebilirsiniz. Bunun yanında genellikle sitemaps adresleri arama motorunun kayıt sayfasından elle eklenir. Bu iş için robots.txt dosyasından yararlanmak oldukça kullanışlı.
Örnek robots.txt dosyanızın içeriği şöyle olabilir:
sitemap: http://www.example.com/sitemap.xml.gz
Sitemap özelliği Google, Yahoo!, MSN ve Ask gibi büyük arama motorları tarafından destekleniyor.
Aslında bu yazı ile birlikte sitemap.xml oluşturmakla ilgili bir yazıyı da yayınlamayı düşünüyordum ama zaman olmadı. Bence Tankado’nun da belirttiği gibi sitemap.xml sitede kesinlikle olmalı. Ben de sitemap.xml sayfası hakkında detaylı bilgileri yeni öğrendim. Sayfalara değer vererek öncelik belirleme olayı çok faydalı. Ayrıca google hesabını kullarak sitenizi google’ın daha iyi anlamasını sağlayabilirsiniz.
Sayfalara değer vererek öncelik belirleme konusunu biraz daha açar mısın? Yoksa makaleni mi bekleyeyim?
Her sayfa için yukarıdaki gibi bir değer veriliyor. 0.5 varsayılan değer. Bu değer 0 ile 1.0 arasında değişebiliyor. Sayfanın önemine göre değer yükseltiliyor.