
Sitenizi ziyaret eden Googlebot User Agent'ının sahte olup olmadığını bir görüntüleyici ile nasıl anlarsınız?
Bir SEO editörü olarak, web sitelerinin Google arama sonuçlarındaki görünürlüğünün ne kadar kritik olduğunu çok iyi biliyorum. Googlebot, yani Google'ın tarayıcı botu, sitenizin sayfalarını keşfeden, analiz eden ve dizine ekleyen temel mekanizmadır. Gerçek Googlebot'un sitenizi düzenli ve doğru bir şekilde ziyaret etmesi, SEO performansınız ve dolayısıyla
reklam geliri elde etmenize yardımcı olan Google AdSense gibi platformlar için hayati öneme sahiptir. Ancak ne yazık ki, internet dünyasında her zaman iyi niyetli aktörler bulunmuyor. Kötü niyetli kişiler, kendi botlarını gerçek Googlebot gibi göstererek "User Agent spoofing" denilen bir teknikle sitenizi ziyaret edebilirler. Bu sahte botlar, sunucu kaynaklarınızı tüketmekten, veri çalmaya, hatta
geçersiz trafik oluşturarak AdSense hesabınızın risk altına girmesine kadar birçok olumsuz sonuca yol açabilir.
Peki, sitenizi ziyaret eden bir Googlebot User Agent'ının sahte olup olmadığını nasıl anlarsınız? Bu sorunun cevabı, sunucu günlük dosyalarınızı (log files) analiz etmek ve bu iş için tasarlanmış bir
User Agent görüntüleyici kullanmaktan geçer. Bu makalede, bu süreci adım adım inceleyecek ve sitenizi bu tür tehditlerden korumak için pratik yöntemler sunacağım.
Googlebot'un Önemi ve Sahte Bot Tehdidi
Googlebot, Google'ın web'i taramak için kullandığı ana bot ailesidir. Sitenizdeki yeni içerikleri bulur, mevcut içeriklerdeki güncellemeleri fark eder ve tüm bu bilgileri Google'ın dizinine ekleyerek arama sonuçlarında görünür olmanızı sağlar. Bir web sitesi sahibi için Googlebot'un ziyareti, sitenin sağlıklı olduğunun ve arama motoru optimizasyonu (SEO) çalışmalarının karşılığını aldığının bir işaretidir.
Ancak internette sadece Googlebot gibi arama motoru botları bulunmaz. Sayısız başka bot, web sitelerini farklı amaçlarla ziyaret eder. Bunların bir kısmı iyi niyetli (örneğin SEO denetim araçları, site izleme servisleri), ancak önemli bir kısmı kötü niyetlidir.
Sahte botlar (fake bots), kendilerini Googlebot gibi tanıtarak sitenize erişmeye çalışır. Bu durum, genellikle şu amaçlarla yapılır:
*
Veri Kazıma (Scraping): Sitenizdeki içeriği, ürün bilgilerini, fiyatları veya diğer değerli verileri otomatik olarak toplamak.
*
AdSense Suistimali: Sitenizde görünen reklamlara geçersiz tıklamalar yaparak veya gösterimler üreterek haksız
reklam geliri elde etmeye çalışmak. Bu durum, AdSense politikalarına aykırıdır ve hesabınızın askıya alınmasına neden olabilir.
*
Sunucu Yükünü Artırma: Aşırı istek göndererek sunucularınızı yavaşlatmak veya çökertmek (DDoS saldırıları).
*
Spam İçerik Dağıtımı: Kötü amaçlı yazılımlar veya spam içeriklerle bağlantılar yerleştirmeye çalışmak.
*
Rekabetçi Analiz: Rakiplerinizin stratejilerini anlamak için sahte Googlebot kimliği altında siteleri taramak.
Bu tehditler nedeniyle, sitenize gelen trafiği dikkatle izlemek ve Googlebot gibi görünen her ziyaretçinin gerçekten Google'dan gelip gelmediğini doğrulamak kritik bir adımdır.
User Agent Nedir ve Neden Taklit Edilir?
User Agent (Kullanıcı Aracısı), bir web tarayıcısının, bir botun veya herhangi bir uygulamanın bir web sunucusuna kendini tanıttığı metin dizisidir. Her HTTP isteğiyle birlikte sunucuya gönderilir ve sunucunun gelen isteği işleme biçimini etkileyebilir. Örneğin, bir web tarayıcısının User Agent'ı, kullandığı tarayıcının adını, sürümünü ve işletim sistemini belirtirken, Googlebot'un User Agent'ı ise Googlebot'un versiyonunu ve genellikle bir tarayıcı taklidi (örneğin Chrome tabanlı) içerir.
Örnek bir gerçek Googlebot User Agent dizisi şöyle görünebilir:
`Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)`
User Agent'ın taklit edilmesinin (spoofing) temel nedeni, sahte botların web sunucuları veya güvenlik sistemleri tarafından belirlenen kuralları aşarak kendilerine meşru bir kimlik kazandırma çabasıdır. Bir sunucu, Googlebot'a özel ayrıcalıklar tanıyabilir (örneğin, belirli sayfalara daha hızlı erişim, kısıtlamaları esnetme). Bu ayrıcalıklardan faydalanmak isteyen kötü niyetli botlar, User Agent dizisini kopyalayarak gerçek Googlebot gibi görünmeye çalışır. Ancak taklit ne kadar iyi olursa olsun, gerçekle arasındaki farkları tespit etmek mümkündür.
Gerçek Googlebot'u Tanıma Temelleri
Gerçek Googlebot'u sahte botlardan ayırmanın en temel yolu, Google'ın kendisinin önerdiği doğrulama yöntemini kullanmaktır:
ters DNS sorgulama (reverse DNS lookup). Bu yöntem, bir IP adresinin belirli bir ana bilgisayar adına ait olup olmadığını kontrol etmenizi sağlar. Google, Googlebot'un IP adreslerinin Googlebot ana bilgisayar adlarına (örneğin `crawl-xxx-xxx-xxx-xxx.googlebot.com`) çözümlenmesini garanti eder.
İşte bu doğrulama adımları:
1.
IP Adresini Tespit Etme: Sunucu günlüklerinizde "Googlebot" User Agent'ı ile gelen bir isteğin IP adresini bulun.
2.
Ters DNS Sorgulama (PTR Kaydı): Bulduğunuz IP adresi üzerinde bir ters DNS sorgulaması (PTR kaydı) gerçekleştirin. Bu, IP adresinin ait olduğu ana bilgisayar adını (hostname) size vermelidir. Güvenilir bir "Googlebot" IP adresi için, sonuç `*.googlebot.com` veya `*.google.com` gibi bir değerle bitmelidir.
3.
İleri DNS Sorgulama (A Kaydı): Ters DNS sorgulamasından elde ettiğiniz ana bilgisayar adı üzerinde bir ileri DNS sorgulaması (A kaydı) yapın. Bu sorgulama, ana bilgisayar adının orijinal IP adresinize geri dönüp dönmediğini doğrulamalıdır.
Eğer her iki sorgulama da eşleşiyorsa, o zaman o IP adresinden gelen trafik büyük olasılıkla gerçek Googlebot'a aittir. Herhangi bir tutarsızlık durumunda ise, gelen trafiğin sahte olduğu sonucuna varılabilir.
Log Dosyaları ve User Agent Görüntüleyici Kullanımı
Sitenizi ziyaret eden bot trafiğini anlamak için en güvenilir kaynak, sunucunuzun tuttuğu günlük dosyalarıdır. Genellikle "access logs" olarak bilinen bu dosyalar, sitenize yapılan her isteğin detaylarını kaydeder: istek zamanı, isteyenin IP adresi, istenen URL, HTTP durumu, yönlendiren sayfa ve tabii ki
User Agent.
Log Dosyalarına Erişme
Log dosyalarına erişim şekli, hosting sağlayıcınıza veya sunucu kurulumunuza bağlı olarak değişir:
*
cPanel/Plesk gibi Kontrol Panelleri: Çoğu paylaşımlı hosting sağlayıcısı, kontrol panelleri üzerinden ham günlük dosyalarına erişim veya basit bir günlük analizi aracı sunar. "Metrics" veya "Logs" bölümünde bu seçenekleri bulabilirsiniz.
*
FTP/SFTP: Bazı durumlarda log dosyaları, sunucunuzun dosya sisteminde (genellikle `logs` veya `var/log/apache2` gibi dizinlerde) saklanır ve FTP/SFTP istemcileri aracılığıyla indirilebilir.
*
SSH Erişimi: Kendi sunucunuzu yönetiyorsanız (VPS, Dedicated Server), SSH üzerinden komut satırı aracılığıyla log dosyalarına doğrudan erişebilir ve bunları gerçek zamanlı olarak izleyebilirsiniz.
User Agent Görüntüleyici Kullanımı
Ham log dosyaları genellikle büyük ve okunması zordur. İşte bu noktada bir
User Agent görüntüleyici veya daha genel anlamda bir log analiz aracı devreye girer. Bu araçlar, log dosyalarını parse ederek verileri daha okunabilir, filtrelenebilir ve analiz edilebilir hale getirir.
Popüler log analiz araçları şunları içerebilir:
*
GoAccess: SSH üzerinden kullanılabilen, gerçek zamanlı ve etkileşimli bir web sunucusu günlük analiz aracıdır.
*
Awstats / Webalizer: Genellikle hosting kontrol panelleriyle birlikte gelen, görsel raporlar sunan araçlardır.
*
Google Analytics: Her ne kadar sunucu loglarını doğrudan analiz etmese de, Analytics verileri üzerinden bot trafiği anormalliklerini (anormal derecede düşük oturum süresi, hemen çıkma oranı vb.) takip edebilirsiniz. Ancak unutmayın ki botlar genellikle JavaScript çalıştırmaz, bu yüzden Google Analytics'te görünmezler.
*
Özel Yazılımlar/Scriptler: Daha büyük siteler için ELK Stack (Elasticsearch, Logstash, Kibana) gibi çözümler veya Python/PHP ile yazılmış özel scriptler kullanılabilir.
Adım Adım Log Analizi ve Doğrulama
1.
Log Dosyalarını Toplayın: Son 24 saatlik veya 1 haftalık gibi belirli bir döneme ait log dosyalarını indirin.
2.
User Agent Görüntüleyiciye Yükleyin: Seçtiğiniz log analiz aracına bu dosyaları yükleyin.
3.
"Googlebot" Araması Yapın: Araç içerisinde User Agent alanına "Googlebot" anahtar kelimesini girerek filtreleme yapın. Bu size kendini Googlebot olarak tanıtan tüm istekleri gösterecektir.
4.
IP Adreslerini İnceleyin: Filtrelenmiş sonuçlarda gördüğünüz her bir IP adresini dikkatlice inceleyin.
*
Tekrar Eden IP'ler: Aynı IP adresinden gelen ve kendini Googlebot olarak tanıtan çok sayıda istek var mı?
*
Coğrafi Konum: IP adreslerinin coğrafi konumları tutarlı mı? Googlebot genellikle ABD merkezlidir, ancak dünyanın farklı yerlerinden de IP'leri olabilir. Ancak sadece tek bir uzak konumdan anormal derecede yüksek trafik gelmesi şüphe uyandırıcıdır.
5.
Ters DNS Sorgulaması Yapın: Şüpheli gördüğünüz veya doğrulamak istediğiniz IP adresleri üzerinde elle veya bir ters DNS sorgulama aracı (örneğin `whois` komutu veya online araçlar) kullanarak doğrulama yapın.
* `dig -x [IP_ADRESİ]` veya `host [IP_ADRESİ]` komutları Linux/macOS üzerinde kullanılabilir.
* Online araçlar için "reverse DNS lookup tool" araması yapabilirsiniz.
6.
İleri DNS Sorgulaması Yapın: Ters DNS sorgusundan dönen hostname üzerinde de ileri DNS sorgulaması yaparak orijinal IP adresine geri dönüp dönmediğini kontrol edin.
7.
Davranış Modellerini İnceleyin: User Agent görüntüleyici, hangi sayfaların tarandığı, tarama sıklığı gibi verileri de gösterir. Gerçek Googlebot genellikle sitenizin önemli sayfalarını, `robots.txt` kurallarına uygun olarak ve belli bir hızda tarar.
Sahte botlar ise genellikle:
* `robots.txt` dosyalarını görmezden gelebilir.
* Çok hızlı veya çok yavaş tarama yapabilirler.
* Sitenizdeki önemsiz, dinamik veya yasaklı sayfalara odaklanabilirler.
* Aynı içeriği defalarca isteyebilirler.
Şüpheli Faaliyetleri Belirleme Kriterleri
Log dosyalarını incelerken, sahte Googlebot aktivitesini işaret edebilecek belirli kalıplar ve kriterler vardır:
*
Tutarsız User Agent Dizileri: "Googlebot" yazıyor ancak sonunda garip karakterler veya farklı bir tarayıcı sürümü belirtiyorsa dikkatli olun. Örneğin, "Googlebot/2.1 (SomethingElse)" gibi bir yapı şüphelidir.
*
IP Adresi/Hostname Uyuşmazlığı: En kesin kanıttır. IP adresi Google'a ait bir hostname'e çözümlenmiyorsa veya hostname'den tekrar IP adresine yapılan sorgulama uyuşmuyorsa, bu sahte bir bottur.
*
Anormal Tarama Hızları: Gerçek Googlebot, Google Search Console üzerinden ayarlanabilen bir tarama hızına sahiptir ve genellikle sitenizin kapasitesini zorlamaz. Aşırı hızlı veya inanılmaz derecede yavaş, düzensiz tarama hızları şüphe uyandırmalıdır.
*
Alakasız İçerik İstekleri: Sitenizde var olmayan sayfalar, `robots.txt` ile engellediğiniz dizinler veya dinamik olarak oluşturulan anlamsız URL'ler için sürekli istekler gelmesi, kötü niyetli bir botun işaretidir.
*
Tek Bir IP'den Yoğun Trafik: Gerçek Googlebot, trafiğini yüzlerce farklı IP adresine dağıtır. Tek bir IP adresinden gelen sürekli ve yoğun "Googlebot" trafiği şüphelidir.
*
JavaScript ve CSS Dosyalarını İstememe: Gerçek Googlebot (özellikle Googlebot-Mobile), sayfaları doğru şekilde oluşturmak için JavaScript ve CSS dosyalarını da ister. Eğer "Googlebot" gibi görünen bir bot sadece HTML dosyalarını istiyor ve diğer kaynaklara dokunmuyorsa, bu bir sahte bot olabilir.
*
HTTP Hata Kodları: Sahte botlar, gerçek Googlebot'un nadiren yapacağı şekilde sürekli olarak 404 (Bulunamadı) hataları üretebilir, çünkü sitenizdeki içerik yapısını anlamadan rastgele URL'leri deniyor olabilirler.
Ek Doğrulama Yöntemleri ve Önlemler
Log analizi, sahte Googlebot'u tespit etmede güçlü bir yöntem olsa da, ek araçlar ve stratejilerle bu süreci daha da güçlendirebilirsiniz.
*
Google Search Console (GSC): GSC, Google'ın sitenizi nasıl gördüğüne dair en doğru veriyi sağlar. "Ayarlar > Tarama İstatistikleri" bölümünden gerçek Googlebot'un sitenizi ne sıklıkla taradığını, hangi dosya türlerini istediğini ve tarama etkinliğini kontrol edebilirsiniz. Kendi loglarınızda gördüğünüz "Googlebot" trafiği ile GSC'deki veriler arasında büyük bir tutarsızlık varsa, bu bir işaret olabilir.
*
robots.txt Dosyası: `robots.txt` dosyası, botlara hangi sayfalara erişip erişemeyeceklerini söyler. Gerçek Googlebot bu kurallara harfiyen uyar. Sahte botlar ise genellikle bu dosyayı yok sayar. Loglarınızda `robots.txt` ile engellediğiniz bir dizine "Googlebot" tarafından erişim denemeleri görüyorsanız, bu sahte bir bottur.
*
Web Uygulama Güvenlik Duvarları (WAF) ve Bot Koruma Çözümleri: Cloudflare, Sucuri, Akamai gibi servisler veya hosting sağlayıcınızın sunduğu WAF çözümleri, bilinen kötü niyetli botları ve User Agent spoofing girişimlerini otomatik olarak engelleyebilir. Bu servisler genellikle gelişmiş algoritmalarla bot trafiğini izler ve anomalileri tespit eder.
*
IP Engelleme: Ters DNS sorgulamaları sonucunda sahte olduğunu tespit ettiğiniz IP adreslerini sunucu güvenlik duvarınızdan (iptables, .htaccess) veya Cloudflare gibi proxy servisleri üzerinden engelleyebilirsiniz. Ancak bu, tek tek IP'lerle uğraşmak anlamına gelir ve çok sayıda sahte bot varsa yorucu olabilir.
*
AdSense Politikaları Eğitimi: Google
AdSense politikaları hakkında bilgi sahibi olmak,
geçersiz trafik türlerini anlamanıza ve hesabınızı riske atmaktan kaçınmanıza yardımcı olur. Unutmayın ki AdSense'in otomatik sistemleri bot trafiğini tespit etmekte oldukça başarılıdır, ancak proaktif olmak her zaman iyidir. /makale.php?sayfa=adsense-optimizasyonu sayfamızı ziyaret ederek AdSense optimizasyonu hakkında daha fazla bilgi edinebilirsiniz.
*
SEO Temellerine Dönüş: Sitenizin genel SEO sağlığına dikkat etmek, iyi bir içerik stratejisi izlemek ve teknik SEO'yu optimize etmek de dolaylı olarak sahte botların sitenize olan ilgisini azaltabilir veya zararlarını minimize edebilir. /makale.php?sayfa=seo-temelleri makalemizden SEO temelleri hakkında detaylı bilgi edinebilirsiniz.
AdSense ve Sahte Googlebot İlişkisi
Google AdSense yayıncıları için sahte Googlebot tehdidi sadece sunucu kaynaklarının israfı anlamına gelmez, aynı zamanda doğrudan finansal risk taşır.
Geçersiz trafik, Google AdSense program politikalarının en sık ihlal edilen maddelerinden biridir ve bir yayıncının hesabının askıya alınmasına veya tamamen kapatılmasına yol açabilir.
Sahte Googlebot'lar, genellikle sitenizi yüksek hacimli ve otomatize edilmiş bir şekilde tarar. Eğer bu botlar reklam alanlarınıza erişebilir ve bu reklamlarla etkileşime girerse (tıklama veya gösterim oluşturma), bu durum AdSense tarafından geçersiz etkileşim olarak algılanabilir. AdSense'in gelişmiş algoritmaları bu tür manipülasyonları tespit etmek için sürekli çalışsa da, sahte botların trafik raporlarınızda yanıltıcı veriler oluşturması ve potansiyel olarak hesabınızın denetime takılması riski her zaman mevcuttur. Temiz ve organik trafik, sürdürülebilir
reklam geliri için temeldir. Bu nedenle, log dosyalarınızı düzenli olarak kontrol etmek ve şüpheli "Googlebot" faaliyetlerini doğrulamak, AdSense hesabınızın sağlığı için proaktif bir adımdır.
Sonuç
Sitenizin dijital güvenliği ve SEO performansı, gerçek Googlebot'un kimliğini doğru bir şekilde doğrulamaktan geçer. Kendini Googlebot olarak tanıtan ancak Google'dan gelmeyen
sahte botlar, hem teknik altyapınıza zarar verebilir hem de
AdSense politikaları çerçevesinde yayıncı hesabınızı riske atabilir. Bu makalede ele aldığımız gibi, sunucu günlük dosyalarınızı düzenli olarak incelemek ve bir
User Agent görüntüleyici kullanarak
ters DNS sorgulama gibi doğrulama yöntemlerini uygulamak, sitenizi bu tür tehditlerden korumanın en etkili yollarından biridir. Unutmayın, uyanık olmak ve proaktif önlemler almak, web sitenizin uzun vadeli başarısı ve güvenliği için vazgeçilmezdir.
Yazar: Sevim Yiğit
Ben Sevim Yiğit, bir Akademisyen ve Araştırmacı. Platformumuzda teknolojiyi herkes için anlaşılır kılmak, karmaşık konuları basitleştirerek okuyucularımızın günlük yaşamında pratik olarak kullanabileceği bilgiler sunmak, yeni beceriler kazandırmak, farkındalık oluşturmak ve teknoloji dünyasındaki gelişmeleri anlaşılır bir dille aktarmak amacıyla yazıyorum.