İleriye dönük: Nvidia’nın veri merkezlerinin baskın GPU tedarikçisi olduğu bir sır değil, ancak artık talep arttıkça AMD’nin bu pazarda ciddi bir rakip haline gelmesi ihtimali çok yüksek. Geçtiğimiz günlerde AMD’ye, 1,2 milyon GPU’dan oluşan şaşırtıcı bir AI eğitim kümesi oluşturma talebinde bulunan bir müşteri başvurdu. Bu, potansiyel olarak onu mevcut en hızlı süper bilgisayar olan Frontier’dan 30 kat daha güçlü hale getirecektir. AMD, 2023’te Veri Center GPU’larının %2’sinden azını tedarik etti.
AMD’nin Veri Merkezi Çözümleri Genel Müdürü Forrest Norrod, The Next Platform’a verdiği röportajda, 1,2 milyon GPU kullanarak yapay zeka eğitim kümeleri oluşturmak için müşterilerden gerçek talepler aldıklarını açıkladı. Bunu bir perspektife oturtmak gerekirse, mevcut AI eğitim kümeleri genellikle birkaç yerel sunucu rafına yüksek hızlı ara bağlantı yoluyla bağlanan birkaç bin GPU kullanılarak oluşturulmaktadır.
Yapay zeka gelişimi için düşünülen ölçek şu anda emsalsizdir. Norrod, “Düşünülmekte olan bazı eğitim kümeleri gerçekten akıllara durgunluk verici” dedi. Aslında yapay zeka modellerini eğitmek için kullanılan bilinen en büyük süper bilgisayar, 37.888 Radeon GPU’ya sahip Frontier’dır ve bu da AMD’nin potansiyel süper bilgisayarını Frontier’dan 30 kat daha güçlü kılar.
Elbette bu kadar basit değil. Mevcut güç seviyelerinde bile yapay zeka eğitim kümeleri oluştururken dikkate alınması gereken çok sayıda tuzak var. Yapay zeka eğitimi, hızlı sonuçlar sağlamak için düşük gecikme süresi gerektirir, önemli miktarda güç kullanır ve yalnızca birkaç bin GPU ile bile donanım arızalarının dikkate alınması gerekir.
Çoğu sunucu yaklaşık %20 kullanımla çalışır ve uzak makinelerdeki binlerce küçük, eşzamansız işi yönetir. Ancak yapay zeka eğitiminin yükselişi sunucu yapısında önemli bir değişikliğe yol açıyor. Makine öğrenimi modellerine ve algoritmalarına ayak uydurabilmek için bir yapay zeka veri merkezinin, bu iş için özel olarak tasarlanmış büyük miktarda bilgi işlem gücüyle donatılması gerekir. Yapay zeka eğitimi aslında kümedeki her düğümün bilgileri mümkün olduğunca hızlı bir şekilde ileri geri iletmesini gerektiren büyük, senkronize bir iştir.
// İlgili Öyküler
- NPU ve GPU: Fark Nedir?
- Elon Musk’ın xAI’si, 6 milyar dolarlık finansman turu ve süper bilgisayar planlarıyla OpenAI’nin ciddi rakibi olarak ortaya çıkıyor
En ilginç olanı ise bu rakamların 2023’teki veri merkezi GPU sevkiyatlarının %2’sinden azını oluşturan AMD’den gelmesi. Geri kalan %98’i oluşturan Nvidia, müşterilerinin ne istediği konusunda ağzını sıkı tuttu. yaratmak. Pazar lideri olarak ne üzerinde çalıştıklarını ancak hayal edebiliyoruz.
Önerilen 1,2 milyon GPU’lu süper bilgisayar tuhaf görünse de Norrod, “çok ayık insanların” yapay zeka eğitim kümelerine yüz milyar dolara kadar harcama yapmayı düşündüklerini söyledi. Teknoloji dünyasında son birkaç yıl yapay zeka gelişmelerindeki patlamayla tanımlandığı için bu bir şok olmamalı. Şirketlerin rekabetçi kalabilmek için yapay zeka ve makine öğrenimine önemli miktarda yatırım yapmaya hazır olduğu görülüyor.