Při instalaci ve vysokokapacitních regálech serveru Blackwell AI čipy NVIDIA čelí vážným problémům s přehřátím se vážným přehřátím.Tyto problémy vedly ke změnám a zpožděním návrhu a vznesly obavy mezi zákazníky, jako jsou Google, Meta a Microsoft o včasném nasazení serverů Blackwell.
Zasvěcenci odhalili, že GPU NVIDIA Blackwell se může při použití na serverech se 72 čipy přehřát.Očekává se, že tato zařízení konzumují až 120 kW energie na stojan.Tyto problémy přinutily NVIDIA, aby znovu vyhodnotila návrh jejího serveru několikrát, protože přehřátí může omezit výkon GPU a představovat riziko poškození komponenty.Zákazníci se obávají, že tyto neúspěchy mohou bránit jejich rozvrhu na nasazení nových čipů v datových centrech.
Podle zpráv NVIDIA nařídila svým dodavatelům, aby provedli několik změn designu v regálu, aby řešili problémy s přehřátím.Společnost úzce spolupracuje se svými dodavateli a partnery při vývoji inženýrských revizí za účelem zlepšení chlazení serveru.Ačkoli tyto úpravy jsou standardní praxí pro tak rozsáhlé vydání technologie, stále přidávají zpoždění a dále zpožďují očekávané datum dodání.
Podle zprávy First Financial, v reakci na zpoždění a problémy s přehřátím, mluvčí NVIDIA uvedl: „Spolupracujeme s předními poskytovateli cloudových služeb jako nezbytnou součást našeho inženýrského týmu a procesů. Inženýrské iterace jsou normální a očekávané. Integrace. Integrace. Integrace.GB200, dosud nejpokročilejší systém, do různých prostředí datového centra vyžaduje společný design s našimi zákazníky. “NVIDIA také uvedla, že „zákazníci v současné době využívají tržní příležitost pro systémy GB200.
Dříve musela NVIDIA odložit výrobu Blackwell kvůli návrhovým vadám ve výnosu čipu.GPU NVIDIA Blackwell B100 a B200 GPU používají technologii balení TSMC Cowos-L k propojení svých dvou čipů.Tento design zahrnuje mezilehlou vrstvu RDL s mostem LSI (Local Silicon Interconnect), což podporuje rychlosti přenosu dat až 10 TB/s.Přesné umístění těchto mostů LSI je zásadní pro to, aby technologie fungovala podle očekávání.Neshoda v charakteristice tepelné roztažnosti mezi GPU čipy, mosty LSI, mezivrstvy RDL a substráty základní desky vedla k deformaci a selhání systému.Aby se tento problém vyřešil, NVIDIA upravila vrstvou kovovou vrstvu a nárazovou strukturu silikonu GPU, aby se zlepšila spolehlivost výroby.
Konečný revidovaný revidovaný GPU NVIDIA Blackwell začne tedy až na konci října teprve koncem října, což znamená, že NVIDIA bude moci tyto čipy odeslat od konce ledna příštího roku.
Klienti společnosti NVIDIA, včetně technologických gigantů, jako jsou Google, Meta a Microsoft, používají GPU NVIDIA k tréninku svých nejsilnějších modelů s velkým jazykem.Zpoždění GPU Blackwell AI GPU přirozeně ovlivní plány a produkty zákazníků NVIDIA.