Çok Gerçek:Microsoft, doğallık, konuşma sağlamlığı ve konuşmacı benzerliği açısından önceki çabaları geride bırakan, sinirsel kodek dil modeli Vall-E’nin yeni bir yinelemesini geliştirdi. Bir çift popüler ölçüt açısından insan eşitliğine ulaşan türünün ilk örneği ve görünüşe göre o kadar gerçekçi ki Microsoft’un halka erişim sağlama planı yok.
Vall-E’nin temel çalışmalarından yararlanan yeni AI ses aracı, performansı büyük ölçüde artıran iki önemli geliştirmeyi birleştiriyor. Gruplanmış kod modellemesi, Microsoft’un kodek kodlarını daha iyi düzenlemesine olanak tanır ve bu da çıkarım hızını artıran ve uzun dizi modellemesiyle ilişkili zorlukların üstesinden gelmeye yardımcı olan daha kısa dizi uzunluklarıyla sonuçlanır.
Tekrarlama farkında örnekleme, bu arada, kod çözme sırasında belirteç tekrarını aramak için orijinal çekirdek örnekleme sürecini yeniden düşünür. Microsoft, bu sürecin kod çözmeyi stabilize etmeye yardımcı olduğunu ve orijinal Vall-E’de bulunan sonsuz döngü sorununu önlediğini söyledi.
Microsoft, LibriSpeech ve VCTK veri kümelerini kullanarak Vall-E 2’yi teste tabi tuttu ve ikisini de başarıyla geçti. Redmond, AI aracının insan eşitliğine ulaştığını iddia ettiğinde, Vall-E 2’nin sağlamlık, benzerlik ve doğallık açısından gerçek örneklerden daha iyi performans gösterdiğini kastediyor. Başka bir deyişle, araç orijinal konuşmacıyla neredeyse aynı olan doğal bir konuşma üretebilir.
Microsoft, proje özeti sayfasında bulunabilen Vall-E 2’den düzinelerce örnek paylaştı. Gerçekten de, Vall-E 2 örnekleri inanılmaz derecede gerçekçi ve insan konuşmacısından ayırt edilemez. Yapay zeka aracı, insanların konuşurken bilinçaltında yaptığı gibi, bir cümledeki doğru kelimeye vurgu yapmak gibi incelikleri bile ustalıkla yönetiyor.
// İlgili Öyküler
- Polis, okul müdürünün sesini deepfake yaptığı gerekçesiyle lise atletizm direktörünü tutukladı
- Hakim, Copilot davasında Microsoft, GitHub ve OpenAI’ye karşı açılan davaların çoğunu reddetti
Microsoft, Vall-E 2’nin tamamen bir araştırma projesi olduğunu ve teknolojiyi bir tüketici ürününe dahil etmeyi veya aracı genel halka sunmayı planlamadığını söyledi. Redmond ayrıca, belirli bir kişiyi taklit etme veya ses tanımlamasını taklit etme gibi kötüye kullanım için potansiyel risk taşıdığını belirtti.
Şirket, bunun eğitim, çeviri, erişilebilirlik, gazetecilik, kendi kendine yazılan içerik ve sohbet robotları gibi alanlarda da uygulama alanı bulabileceği görüşünde.
Resim kredisi: Rootnot Creations