İnternette arama motoru botları tarafından her gün taranan milyonlarca web sitesi, herkese açık olması gerekmeyen sayfaların gizlenmesi için robots txt dosyasını kullanır. Bu küçük metin dosyası arama motorlarının hangi bölümlere erişebileceklerini ve hangi bölümlere girmemeleri gerektiğini bildirir. Özellikle SEO çalışmaları için kritik öneme sahip olan robots txt doğru kullanıldığı zamanlarda pek çok avantajı beraberinde getirir. Peki, robots txt nedir ve robots txt kullanımı ne şekildedir?
Robots.txt Ne İşe Yarar?
Bir web sitesinin kök dizininde bulunan robots txt, Googlebot gibi arama botlarına hangi sayfaları ya da hangi dosyaları tarayıp taramayacaklarını bildiren basit bir metin dosyasıdır. Tarama davranışlarını yönlendirmede kritik bir rol oynayan robots txt dosyası, botların siteyi taramaya başlamadan önce kontrol ettiği ilk yerlerden biridir. Botlar genellikle bu dosyada yer alan talimatlara uyar ve belirtilen sayfaları taramaz. Ancak belirli sayfalara dahili veya harici bağlantılar verilmişse Google bu talimatları göz ardı ederek sayfaları tarayabilir.
Robots txt dosyasındaki direktifler arama motoru botlarına genellikle izin verildi (allow) ya da izin verilmedi (disallow) komutları kullanılarak verilir. Çok sayıda web sayfası bulunan durumlarda önemsiz sayfalarımızı taramaya kapatmak, arama botları tarafından harcanan tarama bütçesinin çok daha verimli kullanılmasını sağlayabilir. Bu sayede botlar daha önemli sayfalara odaklanabilir.
SEO projelerinde robots txt dosyasıyla ilgili olarak şu önemli bilgiyi de göz önünde bulundurmak gerekiyor: Arama botları herhangi bir web sayfasını ziyaret edip robots txt dosyasını okudukları zaman 500 Internal Server Error gibi bir HTTP durum kodu hatası döndürürse botlar sitede sorun olduğunu düşünerek taramayı durdurabilir. Örneğin resimler için CDN kullanılan durumlarda Google ilgili web sayfasında resmin olmadığını varsayabilir. Şimdi gelin, “Robots txt dosyası nasıl oluşturulur?” sorusunun cevabını vermeye çalışalım.
Robot.txt Nasıl Oluşturulur?
Sitenizin kök dizininde bulunan robots txt dosyası doğru bir şekilde yapılandırılarak oluşturulmalıdır. Robots txt oluşturma ve robot txt düzenleme adımları ise şöyledir:
Robots.txt Dosyasını Oluşturun
Notepad gibi basit bir metin düzenleyici kullanarak yeni bir dosya oluşturun ve oluşturduğunuz dosyanın adını “robots.txt” olarak düzenleyin.
User Agent Belirleyin
Talimatların hangi arama motorlarına uyarlanacağını belirten bir user-agent direktifi oluşturun. Tüm botlar için “*” karakterini kullanın.
User-agent: *
Erişim İzinlerini Belirleyin
Belirtilen dizinlerin ya da dosyaların botlar tarafından taranmasını engelleyen disallow komutunu aşağıdaki gibi oluşturun.
Disallow: /ornek-dizin/
Disallow ile engellenen bir dizinin içindeki belirli dosyaların taranmasına izin veren allow komutunu aşağıdaki gibi oluşturun:
Allow: /ornek-dizin/izin-verilen-sayfa.html
Dosyayı Kaydedin ve Yükleyin
Dosyayı kaydettikten sonra web sitenizin kök dizinine aşağıdaki örnekte yer aldığı gibi ekleyin.
https://www.orneksite.com/robots.txt
Doğrulama İşlemini Tamamlayın
Robots txt dosyasının doğru şekilde çalışıp çalışmadığını kontrol etmek için Google Search Console üzerinde bulabileceğiniz test aracı kullanışlıdır.
Yukarıdaki adımlara ek olarak wordpress robots txt dosyası oluşturmak için robots txt generator de kullanabilirsiniz. Bu araç robots txt dosyasını kod yazmaya gerek olmadan kolayca oluşturmanıza yardımcı olur. Ayrıca bu dosyayı kök dizinden silerek robots txt kaldırma işlemini kolayca tamamlayabilirsiniz.
Robots.txt Dosyası SEO için Neden Önemlidir?
Doğru şekilde yapılandırılan robots txt dosyaları web sitemizin SEO performansını optimize ederek gereksiz tarama maliyetlerinden kaçınmaya destek olabilir. Robots txt dosyasının SEO açısından önemi ve etkili kullanım rehberi ise aşağıdaki gibidir:
Tarama Bütçesinin Optimize Edilmesi
Arama motorları her site için belirli bir tarama bütçesi ayırır ve bu bütçe crawl budget olarak adlandırılır. Bu bütçe, search engine botlarının tarayabileceği maksimum sayfa sayısını gösterir. Eğer sitenizde etiket sayfalarından filtrelenmiş URL’lere kadar uzanan bir dizi gereksiz sayfa bulunuyorsa botların bu sayfaları taraması ve dolayısıyla kaynak harcaması mümkün olabilir. Robot.txt dosyası ise bu gereksiz veya düşük öncelikle sayfaların taranmasını engelleyerek botların çok daha önemli içeriklere odaklanmasını sağlar. Özellikle e-Ticaret platformları gibi büyük ve dinamik site projelerinde tarama bütçesini doğru yönetmek SEO açısından önemli bir avantaj sağlayabilir.
Yinelenen İçeriklerin Önlenmesi
Arama motorlarında listelenen aynı veya birbirine çok benzeyen içerikler duplicate content, yani yinelenen içerik olarak algılanır. Bu durum SEO açısından ciddi zararları olabilir. Çünkü hem Google hem diğer arama motorları hangi içeriğin öncelikli olduğunu belirleyemez. Bu da sayfa otoritesinin bölünmesine ve sıralamalarda düşüş yaşanmasına neden olabilir. Ayrıca yinelenen içerikler tarama bütçesinin boşa harcanmasına sebebiyet verebilir.
Özel ve Hassas İçeriklerin Korunması
Bazı sayfaların arama motorlarında listelenmesi istenmez. Örneğin admin panelleri, kullanıcı giriş sayfaları, ödeme ve fatura sayfaları, dahili dokümantasyonlar, gizli test sayfaları gibi sayfaların aranmasını robots txt dosyası aracılığıyla engelleyebilirsiniz. Yine de robots txt bu sayfaları tamamen gizlemez, yalnızca botların bu sayfaları taramasını engeller. Sayfa içinde başka sitelerden bağlantı bulunması durumunda arama motorları bu sayfayı yine de listeleyebilir. Eğer belirli sayfaların taramadan tamamen korunmasını isterseniz noindex meta etiketi yerleştirebilir veya şifre koruması kullanabilirsiniz.
Sunucu Yükünün Hafifletilmesi ve Sitenin Hızlandırılması
Eğer gereksiz sayfalar arama botları tarafından sık sık taranıyorsa bu durum sunucu kaynaklarının gereksiz tükenmesine neden olabilir. Özellikle sayfaların sık sık değiştirildiği veya oluşturulduğu çok büyük sitelerde tarama esnasında ciddi yük oluşabilir. Örneğin e-Ticaret sitelerinde bu yük daha da artabilir. Robots txt kullanarak düşük önceliği bulunan sayfaların taranması önlenir ve bu sayede kaynaklar daha verimli kullanılabilir. Ayrıca düşük kapasiteli sunucularda robots txt kullanmak aşırı bot trafiğini engelleyerek sunucu performansını artırır ve bu da sitenin hızlanmasına yardımcı olur.
Yapay Zeka ve Veri Toplamanın Önlenmesi
Son yıllarda büyük teknoloji şirketleri web’den ciddi miktarda veri toplamaya başlamıştır. Ayrıca bazı yapay zeka sistemleri de web sitelerini tarayarak topladıkları içeriklerle kendi modellerini eğitirler. Örneğin Apple tarafından geliştirilen Applebot-Extented gibi AI veri toplama botları içerikleri analiz etmek ve modellerini eğitmek için kullanabilir. Ayrıca Wired ve Business Insider gibi bazı haber siteleri içeriklerinin yapay zeka modelleri tarafından kullanılmasını engellemek için robots txt dosyalarını güncellemiştir. Eğer herhangi bir içeriğin ya da sayfanın arama botları tarafından taranmasını istemiyorsanız robots txt dosyası içinde aşağıdaki komutları kullanabilirsiniz.
User-agent: Applebot-Extented
Disallow: /
Siz de yukarıdaki gibi robots txt disallow URL veya user agent Googlebot disallow seçeneğini kullanarak herhangi bir sayfanın arama motorları tarafından aranmasını engelleyebilirsiniz. Burada kullanıcıların dikkat etmesi gereken önemli noktalardan biri, bazı kötü niyetli botların robots txt komutlarına uymuyor olmasıdır. Bu nedenle gerçek bir koruma sağlamak için firewall veya captcha çözümleri kullanılabilir.
Dilerseniz çalışmalarınızı bir adım öteye taşımak için “Seo Çalışmalarında SWOT Analizi” isimli içeriğimizi de okuyabilirsiniz.
Robots.txt Dosyasına Sitemap Ekleme
Arama motorlarının botları web sitenizi ziyaret ettiğinde robots.txt file içerisinde site haritasının bulunması gerekir. Robots txt dosyasına sitemap ekleme işlemiyse son derece basittir. Kaç tane site haritanız varsa bunları robots txt dosyasının en alt kısmına eklemeniz yeterlidir. Siz de site haritasını default robots txt dosyası içerisine aşağıdaki gibi ekleyebilirsiniz:
Sitemap: http://www.sitenizinadı.com/sitemap1.xml
Sitemap: http://www.sitenizinadı.com/sitemap2.xml
Robots.txt Dosyasını Test Etme
Robots txt dosyanın çalışıp çalışmadığını kontrol etmek için birkaç farklı test aracından yararlanabilirsiniz. Bunun için en yaygın kullanılan araç Google Search Console’un test aracıdır.
Google Search Console Robots.txt Test Aracı
Bu araç robots txt dosyasının içeriğinin görüntülenmesini, düzenlenmesini, belirli bir URL’nin taranır olup olmadığının kontrol edilmesini, olası hatalar hakkında geri bildirimler alınmasını, dosyanın güncellenmesi durumunda ise bu değişikliklerin Google’a bildirilmesini sağlar.
Tarayıcı Üzerinden Manuel Test
Kullandığınız internet tarayıcıya aşağıdaki URL’yi yazarak robots txt dosyanızın içeriğini manuel olarak görüntüleyebilirsiniz.
https://www.siteniz.com/robots.txt
Eğer bu sayfaya gitmek istediğinizde 404 hatası alıyorsanız robots txt dosyanız muhtemelen eksik demektir.
Üçüncü Taraf Araçlar
Google Search Console dışında SEMrush gibi SEO araçları da robots txt dosyanızı test etmenize yardımcı olabilir. Bu araçlar genellikle sayfalarımızın arama motoru tarafından nasıl işlendiğini görmeye yarar. Ayrıca bu araçlar sayesinde search results listelemeleri için özel botları da test etmek mümkündür.
Google URL Inspection Aracı
Google Search Console tarafından sunulan URL Inspection Tool, herhangi bir URL’nin taranıp taranmadığını test etmek için tercih edebileceğiniz kullanışlı bir araçtır. Eğer Google arama motoru botları robots txt nedeniyle belirli web sayfalarını görmüyorsa bu araç içinde “Blocked by robots.txt” şeklinde bir uyarı görebilirsiniz.
Robots.txt Kullanımında Dikkat Edilmesi Gerekenler
SEO’ya zarar veren en önemli unsurlardan biri robots txt dosyasının yanlış yapılandırılmasıdır. Eğer robots txt dosyasına yanlış bir satır eklerseniz sitemizin tamamının arama motorları tarafından taranmasını engelleyebilirsiniz. Bu da SEO için çok ciddi kayıplara yol açabilir.
Robots txt dosyasının tüm URL’leri indekslemeden kaldırması gibi bir görevi bulunmaz. Bu dosyanın görevi yalnızca taramayı önlemektir. Yani bir sayfa halihazırda indekslenmişse arama motorlarında görünmeye devam edebilir. Eğer gerçekten sayfalar taranmasın isterseniz noindex meta etiketi veya Search Engine URL Removal Tool gibi araçları kullanabilirsiniz. Ayrıca robots txt dosyasını kullanarak aşağıdaki önemli noktalara da dikkat etmeniz gerekebilir:
- Robots txt dosyası herkese açıktır. Bir kullanıcı “sitenizinadi.com/robots.txt” URL’si girdiği zaman bu dosyanın içeriğini görebilir. Eğer gizli veya güvenlik açısından hassas sayfalar engelliyorsanız bu sayfaların kötü niyetli kişiler tarafından fark edilebileceğini unutmamanız gerekir.
- Googlebot ve diğer botlar aynı kurallara uymayabilir. Örneğin Bing ve Yandex gibi arama motorlarının botları robots txt dosyasının içeriğini farklı şekilde yorumlayabilir. Bu nedenle her web robots için özel yönergeler tanımlayabilirsiniz.
- Oluşturduğunuz robots txt dosyası txt uzantılı ve UTF-8 formatında olmak zorundadır.
- Google robots txt dosyalarının yalnızca 500 KB’lık kısmını tarar. 500 KB dışında kalan satırlar ise görmezden gelinir.
- Web sitelerinin wp robots txt dosyaları Google tarafından önbellekte tutulur. Son 24 saat içinde yaptığınız değişikliklerin etkili olması için öncelikle önbelleğin yenilenmesini beklemeniz gerekir.
- Bir tarama botu web sitenize girdiği zaman 500 HTTP gibi 429 veya 5XX HTTP gibi hata kodlarından biriyle karşılaşırsa sitenin tarama için uygun olmadığına karar vermek tarama işlemini yapmayı durdurur.
Siz de tıpkı robots txt konusunda olduğu gibi SEO’yu ilgilendiren diğer konularda da bilgi almak isterseniz, web sitemizi ziyaret ederek blog içeriklerimizden yararlanabilirsiniz. Ayrıca tüm SEO projeleriniz için alanında uzman ve deneyimli ekibimizden profesyonel destek almak isterseniz şimdi bizimle iletişime geçebilirsiniz.