Blackwell: Nvidia yeni nesil yapay zeka hızlandırıcılarını tanıtıyor

Adanali

Member
Duyuru



Nvidia'nın San José, California'daki şirket içi GTC 2024 ticari fuarı yıllardır ilk kez şahsen gerçekleştirildi ve şaşırtıcı olmayan bir şekilde, tamamen yapay zeka ile ilgiliydi. Nvidia, hızlandırıcı çipleriyle şu anda veri merkezi pazarına hakim durumda ve yapay zeka patlamasının ardından birbiri ardına rekor mali sonuçlar elde ediyor.

Nvidia patronu Huang işlerin bu şekilde kalmasını istiyor. Yeni Blackwell hızlandırıcı mimarisi, yıl boyunca B100'den DGX GB200 SuperPOD'a kadar birçok ürünün pazara sunulmasında merkezi bir rol oynuyor. Kağıt üzerinde Blackwell GPU'lar, AMD'nin en yeni MI300 hızlandırıcılarıyla karşılaştırıldığında bazı veri formatlarında iki kat verim elde ediyor.

Yeni Blackwell mimarisi ve 4 bitlik kayan nokta gibi daha da azaltılmış veri formatlarının yanı sıra yeni işlevlerle odak noktası öncelikle enerji verimliliği ve bireysel yongalar arasındaki veri alışverişidir. Bu nedenle NVLink anahtarı ve ağ teknolojisi de güncellendi.

Nvidia geleneksel olarak fiyatları isimlendirmez ve ortaklarına atıfta bulunur, ancak AI heyecanı azalmadan devam ettiği sürece çiplerin neredeyse fiyatı ne olursa olsun satılması muhtemeldir. Her durumda, Nvidia zaten müşteri olarak Amazon Web Services, Google Cloud ve Oracle Cloud'u kazandı, ancak bulut sunucularını rezerve etmenin tam olarak ne zaman mümkün olacağını belirtmiyor. Bu arada eski H100 ürünleri de üretim hattından çıkmaya devam ediyor.

Çift Blackwell çipi


Nvidia, Blackwell ile yeni bir çığır açıyor ancak bazı açılardan kendine sadık kalıyor. Blackwell “GPU” iki ayrı çipten oluşur. Nvidia, ikisinin işlevsel olarak aynı olup olmadığı sorumuzu yanıtlamadı ancak her ikisinin de ekran seçeneklerinin sınırına ulaştığını söyledi. Bu, her birinin yaklaşık 800 mm²'lik bir boyuta sahip olması gerektiği ve dolayısıyla önceki H100 (814 mm²) ve A100 (826 mm²) ile ayrı ayrı yaklaşık olarak aynı alanı kaplaması gerektiği anlamına gelir. Genellikle birkaç çipin birleştirilmesi olarak anlaşıldığından chiplet kelimesinden bahsedilmedi.

Nvidia, Blackwell çiplerini TSMC tarafından “4NP” adı verilen bir süreçte üretiyor ve bu da üreticinin genel terminolojisine uymuyor. Nvidia, bunun N4P'nin bir türevi olup olmadığı veya sürecin hangi özelliklere sahip olduğu konusunda yanıt vermedi, ancak bunun, her zamanki gibi bazı parametrelerin müşteri ihtiyaçlarına göre uyarlandığı N4P olduğunu varsayıyoruz.

Nvidia'nın Blackwell GPU'ları olarak adlandırdığı her iki çip de birbirine saniyede 10 TByte hızlı bir arayüz (her yönde 5 TBytes/s) aracılığıyla bağlanıyor. Nvidia'ya göre bu, performans açısından tek bir GPU gibi davranmaları için yeterli. Karşılaştırma için: Nvidia'nın üst düzey GeForce RTX 4090 grafik kartlarında veri bağlantısı örneği olarak seviye 2 önbellekle, saniyede yaklaşık 5 TByte ölçtük, AMD'nin MI300 hızlandırıcı yongaları birbirine 1,5 TByte'a kadar bağlı S.

192 GB HBM3e bellek


Bellek söz konusu olduğunda Nvidia, sekiz adet 24 GB'lık hızlı HBM3e bellek yığınıyla başlıyor. Bu da toplamda 192 GB ve 8 TB/s aktarım hızına denk geliyor. Bellek boyutu açısından şirket, AMD'nin MI300X'iyle aynı seviyede, ancak B100 yaklaşık %50 daha yüksek aktarım hızına sahip – özellikle bellek boyutu söz konusu olduğunda Nvidia'nın H100 nesli geç kaldığı için yükseltme de gerekliydi. Sekiz yığınla teorik olarak daha sonra 36 GB'lık yığına geçme ve kapasiteyi 288 GB'a çıkarma seçeneğiniz de vardır.

Sunumda iç yapıya dair sadece birkaç detay vardı. Nvidia yalnızca Tensor çekirdekleri için performans verileri sağladı ancak geleneksel gölgelendirici hesap makineleri ve diğer birimler konusunda sessiz kaldı.

Tablo sunumu için verim değerlerini seyrek olarak kullandık; yoğun nüfuslu matrislerde teraflop rakamları yarıya iner.

Veri merkezi ve yapay zeka hızlandırıcıları

Soyadı​

GB200​

AMD MI300X​

H100​

A100​

mimari​

1x Grace + 2x Blackwell​

CDNA3​

Hazneler​

Ada​

Transistör​

2x 104 milyar / 4NP / ~800 mm²​

153 milyar / N5 + N6'dan oluşan çeşitli yongalar​

80 milyar / 4N / 814 mm²​

54,2 milyar/N7/826 mm²​

biçim​

Eklenti kartı (1U raf başına 2 adet) / SXM​

SXM5​

SXM5​

SXM4​

Yıl​

2024​

2023​

2022​

2020​

TDP​

1200 watt​

750 watt​

700 watt​

400/500 watt​

Depolama​

HBM3e 192GB​

192GBHBM3​

80GBHBM3​

HBM2E 80GB​

Transfer oranı​

8 TBayt/sn​

5,3 TBayt/sn​

3,35 TByte/sn​

2,04 TByte/sn​

GPU-GPU bağlantısı​

NVLink 5. Nesil, 1,8 TBayt/sn​

896 GB/sn​

4. nesil NVLink, 900 GB/sn​

3. nesil NVLink, 600 GB/sn​

GPU aracılığıyla tensör çekirdeği bilgi işlem gücü (TFLOPS, seyrek)​

FP64 (teraflop)​

45​

163​

67​

19.5​

FP32 (teraflop)​

k.Bilgi​

163​

K. belirtir​

K. belirtir​

TF32 (teraflop)​

2500​

1307​

989​

312​

BF16 (teraflop)​

5000​

2615​

1979​

624​

FP8 (teraflop)​

10000​

5230​

3958​

K. Şartname (INT8: 1248 TOP)​

FP4 (teraflop)​

20000​

k.Bilgi​

K. belirtir​

K. belirtir​

GPU hesaplama gücü gölgelendirici çekirdekleri (teraflop)​

FP64 (teraflop)​

k.Bilgi​

81.7​

33.5​

9.7​

FP32 (teraflop)​

k.Bilgi​

163.4​

66.9​

19.5​

BF16 (teraflop)​

k.Bilgi​

k.Bilgi​

133.8​

39​

FP16 (teraflop)​

k.Bilgi​

k.Bilgi​

133.8​

78​
FP4 ve FP6


Blackwell için yeni olan, diğer şeylerin yanı sıra, çipin Transformer motorunda bir Nvidia çalışanının işbirliğiyle hazırlanan bir araştırma makalesinin bulunduğu 4 bitlik kayan nokta formatı (FP4) desteğidir. Bu, Büyük Dil Modellerinin (LLM) yapay zeka çıkarımına yönelik ağırlıkların ve aktivasyonların yalnızca 4 bit ile kaydedilmesi gerektiği anlamına gelir. Yazarlar şunu belirtiyor: “Metodumuz, LLaMA-13B modelindeki hem ağırlıkları hem de aktivasyonları ilk kez yalnızca 4 bit olarak nicemleyebiliyor ve ortak duyu tabanlı sıfır atış akıl yürütme görevlerinde ortalama 63,1 puana ulaşıyor; bu yalnızca 5,8 puandır. tam hassas modelden daha düşüktür ve önceki teknikten 12,7 puan önemli ölçüde daha iyi performans gösterir.” Bu nedenle FP4, sonuç doğruluğunda yalnızca nispeten küçük kayıplarla önemli ölçüde daha az veriyi işleyebilir; bu, yalnızca işlem hızını iki katına çıkarmakla kalmaz, aynı zamanda olası model boyutunu da iki katına çıkarır.

Güncelleme: Açılış konuşması sırasında Nvidia CEO'su Huang, FP6'nın da bir seçenek olduğunu açıkladı. Bu format, FP8'e kıyasla ek bilgi işlem verimi sağlamaz ancak bellek, önbellek ve kayıt alanından ve dolayısıyla enerjiden tasarruf sağlar.

1,8 trilyon parametreli bir GPT modeliyle (İngilizce: “1,8T Params”) Nvidia, Uzmanlar Karışımı adı verilen, yani uyarlanmış parametrelerin hesaplanmasına ve hassasiyetine dayalı bir sistemle GB200'lü H100'den 30 kat daha hızlı olmak istiyor. veri. ve 25 kat daha verimli çalışın. Nvidia, performansı tek bir GPU'ya düşürdüğünü iddia ediyor, ancak gerçekte 8 HGX100 ve Infiniband 400G ara bağlantısına sahip bir sistemi 18 GB200 (NVL36) süper çiplerle karşılaştırıyor.

Ancak FP8 veri formatıyla bile Blackwell kağıt üzerinde AMD'nin MI300X'inden neredeyse iki kat, önceki H100'den ise 2,5 kat daha hızlı.



Haberin Sonu
 
Üst