Önemli olmasının nedeni:Üretken AI’nın açık web’i eskisinden çok daha kötü hale getirme potansiyeline sahip olduğu konusunda büyüyen bir fikir birliği var. Şu anda tüm büyük teknoloji şirketleri ve AI girişimleri, AI modellerini eğitmek için web’den alabildikleri tüm orijinal içeriği toplamaya güveniyor. Sorun şu ki, web sitelerinin ezici çoğunluğu buna sıcak bakmıyor ve buna izin de vermediler. Ama hey, açık web’deki içeriğin “ücretsiz yazılım” olduğuna inanan Microsoft AI CEO’suna sorun.
Geçtiğimiz hafta Akamai’den gelen bir rapor, botların toplam web trafiğinin büyük bir kısmını oluşturduğunu ve yapay zekanın siber suçlular ve sahtekâr girişimler için işleri çok daha kolaylaştırdığını yeniden doğruladı.
Cloudflare tarafından sağlanan içerik dağıtım ve güvenlik duvarı hizmetlerini kullanan web siteleri ve içerik oluşturucuları artık, büyük teknoloji şirketlerinin açık yetkilendirme olmaksızın botlarını serbest bırakma ve web içeriğini toplama yeteneğini sınırlamak için kullanımı kolay ek bir çözüme sahip.
OpenAI gibi en popüler AI şirketleri, sunucudaki bir robots.txt dosyasına eklenebilen özel kurallar aracılığıyla tarama botlarını engellemenin bir yolunu sunmaya başladı. Ancak, bu çözümler yalnızca bot gerçekten bu kurallara uyacak şekilde tasarlandığında işe yarıyor – sorun şu ki 1) tüm şirketler robots.txt yönergelerine uymaya istekli değil ve 2) birçok AI şirketi bu “vazgeçme”yi sunmadan önce yapabilecekleri her şeyi çoktan çöpe attı – Cloudflare, müşterilerinin ezici çoğunluğunun, yüzde 85’e kadarının AI botlarını bu şekilde engellemeyi çoktan seçtiğini söylüyor.
Cloudflare tarafından sunulan yeni tek tıklamalı çözüm hem ücretsiz hem de ücretli müşteriler için kullanılabilir ve robots.txt kurallarına uymayan AI botlarına karşı etkili bir mücadele sunabilir. Cloudflare botları tanımlayabilir ve her biri için ayrı parmak izleri oluşturabilir ve zamanla parmak izi veritabanını otomatik olarak güncellemeyi taahhüt eder.
// İlgili Öyküler
- Tüm web trafiğinin neredeyse yarısı botlardan oluşuyor ve bunlar çoğunlukla kötü niyetli nitelikte
- Microsoft AI CEO’su: Açık web’deki içerikler AI eğitimi için “ücretsiz yazılım”
İnternetteki en büyük CDN ağlarından biri olan Cloudflare, saniyede ortalama 57 milyondan fazla ağ isteğinden veri çıkarımı yapabilir.
Şirket, bugünün web’ini yağmalayan en aktif AI botlarının bir listesini bir araya getirdi; Bytespider, GPTBot ve ClaudeBot, erişilen web sitesi payına göre en büyük üç tanesi. Bytespider, Çinli şirket ve TikTok sahibi ByteDance tarafından işletiliyor ve büyük dil modellerini eğitmek için muhtemelen Cloudflare tarafından korunan web sitelerinin %40’ından toplanan içeriği kullanıyor.
GPTBot web sitelerinin %35’ine erişiyor ve ChatGPT ve OpenAI tarafından sunulan diğer üretken AI hizmetlerini eğitmek için veri topluyor. ClaudeBot, Cloudflare’e göre son zamanlarda istek hacmini %11’e kadar artırdı ve Anthropic tarafından geliştirilen LLM algoritmalarının isim ailesini eğitmek için kullanılıyor.
Bu bilinen botların statik bir analiz çalışmasıyla tespit edilmesi daha kolay olsa da Cloudflare, internette gezinen gerçek insanlarmış gibi davranan botları da tespit edebilir.
Şirket kendi küresel makine öğrenme modelini geliştirdi ve esasen AI teknolojisini kullanarak başka bir şeymiş gibi davranan AI botlarını tanıyor. Cloudflare, modelinin kaçamak AI botlarından gelen trafiği “uygun şekilde işaretleyebildiğini” ve gelecekte yeni bir bot parmak izi oluşturmaya gerek kalmadan yeni kazıma araçlarını ve sahte botları tespit etmek için kullanılacağını söyledi.