Bitget App
Trade smarter
Kup kryptoRynkiHandelFuturesEarnCentrumWięcej
Raport: Nvidia i kluczowi klienci w końcu rozwiązali problemy z wdrożeniem chipów Blackwell

Raport: Nvidia i kluczowi klienci w końcu rozwiązali problemy z wdrożeniem chipów Blackwell

新浪财经新浪财经2026/02/07 21:50
Pokaż oryginał
Przez:新浪财经

Rok temu dyrektor generalny Nvidia, Jensen Huang, powiedział analitykom, że ze względu na znacznie zwiększoną złożoność nowej generacji chipów sztucznej inteligencji Blackwell, przejście klientów z poprzednich chipów serwerowych AI na tę wersję będzie „wyzwaniem”. Oświadczył, że aby poprawić wydajność chipów, „wszystkie elementy – obudowa serwera, architektura systemu, konfiguracja sprzętu, system zasilania – muszą zostać dostosowane”.

W rzeczywistości, dla kluczowych klientów Nvidia, wdrożenie i skalowanie serwerów Blackwell było trudnym problemem. Według dwóch pracowników Nvidia obsługujących OpenAI oraz innych głównych klientów oraz pracownika Meta, który doświadczał rozwiązywania tych problemów, przez większą część ubiegłego roku OpenAI, Meta Platforms i ich partnerzy chmurowi mieli trudności ze stabilnym wdrożeniem i użytkowaniem tych systemów. Wszyscy podkreślali, że w przeciwieństwie do obecnej sytuacji, po otrzymaniu poprzednich chipów AI Nvidia, klienci byli w stanie wdrożyć je i uruchomić w ciągu kilku tygodni.

Wyzwania, z jakimi mierzyli się kluczowi klienci Nvidia podczas używania chipów z serii Blackwell (szczególnie modelu Grace Blackwell), wydają się jednak nie mieć poważnego wpływu na działalność tego giganta branży chipów. Nvidia wciąż jest firmą o najwyższej kapitalizacji rynkowej na świecie – 4,24 biliona dolarów – i obecnie rozwiązała większość problemów technicznych, które uniemożliwiały szybkie, masowe wdrożenie tej serii chipów przez największych klientów.

Jednak jeśli przyszłe nowe chipy Nvidia napotkają podobne trudności wdrożeniowe, konkurenci tacy jak Google mogą zyskać szansę na przełom – pod warunkiem, że będą w stanie pomóc klientom szybciej przeprowadzić masowe wdrożenia chipów, wspierając rozwój zaawansowanych technologii AI. Takie problemy mogą również sprawić, że zyski dostawców usług chmurowych, którzy nie są w stanie wdrożyć chipów na dużą skalę, zostaną uszczuplone, a tempo prac nad bardziej zaawansowanymi modelami AI – spowolnione.

Treść tego artykułu opiera się na wywiadach z pracownikami Nvidia, Meta oraz pracownikami dostawców usług chmurowych wykorzystujących chipy Nvidia i partnerami instalującymi te chipy w centrach danych.

Dla takich klientów jak OpenAI i Meta, brak możliwości budowy klastrów chipów na oczekiwaną skalę ogranicza ich zdolność do trenowania większych modeli AI. Według jednego z pracowników Nvidia, mimo że klienci nie zgłaszali publicznie skarg, część z nich prywatnie wyraziła swoje niezadowolenie przedstawicielom Nvidia.

Aby zrekompensować straty klientów, według jednego z menedżerów usług chmurowych i pracownika Nvidia uczestniczących w negocjacjach, Nvidia w zeszłym roku zaoferowała częściowy zwrot kosztów i zniżki klientom dotkniętym problemami z chipami Grace Blackwell.

Zarówno menedżerowie Nvidia, jak i usług chmurowych twierdzą, że główny problem dotyczył serwerów łączących 72 chipy Grace Blackwell – taka konstrukcja miała znacznie przyspieszyć komunikację między chipami i umożliwić współpracę w ramach jednego systemu. Serwery te mogą łączyć się z innymi, tworząc ogromne klastry wspierające intensywne treningi modeli AI.

Rzecznik Nvidia powiedział, że firma w 2024 roku odpowiedziała na wątpliwości dotyczące powolnego wdrożenia systemów Grace Blackwell i w oświadczeniu dla magazynu „The Information” określiła te systemy jako „najbardziej zaawansowane komputery w historii”, których wdrożenie wymaga „wspólnej inżynierii z klientami”.

W oświadczeniu dodano: „Nvidia prowadzi głęboką współpracę z czołowymi dostawcami chmury, a ich zespoły stały się nieodzowną częścią naszego procesu inżynieryjnego. Tego typu inżynieryjne iteracje są normalnym zjawiskiem w branży i były przez nas przewidywane”.

Sachin Katti, szef infrastruktury OpenAI, w oświadczeniu powiedział, że współpraca z Nvidia „w pełni zgodnie z planem zapewnia nam moc obliczeniową dla naszej mapy drogowej R&D. Wykorzystujemy wszystkie dostępne chipy Nvidia do treningu i inferencji modeli, co przyspiesza iteracje i wdrażanie produktów – ostatnie premiery modeli są tego najlepszym dowodem”.

Rzecznik Meta odmówił komentarza.

Bóle wzrostu

Widać, że Nvidia wyciągnęła wnioski z tych problemów wdrożeniowych. Firma zoptymalizowała istniejące systemy Grace Blackwell oraz wprowadza ulepszenia do serwerów opartych na nowej generacji chipów Vera Rubin, które mają się pojawić później w tym roku.

Według dwóch osób zaangażowanych w projektowanie chipów, Nvidia w zeszłym roku wypuściła ulepszoną wersję Grace Blackwell o lepszej wydajności, aby zapewnić większą stabilność niż pierwsza generacja. Ulepszony chip o nazwie GB300 poprawił możliwości chłodzenia, jakość podstawowych materiałów i złączy.

Według pracownika Meta znającego szczegóły, inżynierowie Meta, którzy mieli wcześniej problemy techniczne z pierwszą generacją Grace Blackwell, stwierdzili, że nowy chip jest znacznie łatwiejszy do połączenia w klaster. Inny pracownik Nvidia obsługujący OpenAI powiedział, że OpenAI i inni klienci już zmodyfikowali zamówienia na chipy Grace Blackwell, które jeszcze nie dotarły, aby zamiast tego zwiększyć zamówienie na ulepszoną wersję.

Jesienią ubiegłego roku Nvidia poinformowała inwestorów, że większość przychodów z serii Blackwell pochodzi z zoptymalizowanych serwerów Grace Blackwell, a firma planuje masowe dostawy tych serwerów w tym roku.

Firma xAI Elona Muska, silnie uzależniona od chipów Nvidia, wydaje się być liderem we wdrażaniu serwerów Grace Blackwell. W październiku ubiegłego roku firma zakończyła wdrożenie i uruchomienie ok. 100 000 tych chipów w centrum danych w Memphis, choć nie jest jasne, czy ta strategia przyniosła lepsze rezultaty.

Najpierw budowa, potem testy

Celem rozwoju chipów Blackwell przez Nvidia było umożliwienie klientom trenowania modeli AI na znacznie większą skalę i przy niższych kosztach niż w przypadku poprzednich generacji.

W poprzednich serwerach Nvidia klienci mogli połączyć maksymalnie 8 chipów, a komunikacja między nimi była powolna. Główną ideą serii Blackwell jest połączenie aż 72 chipów Grace Blackwell w jednym serwerze, co zmniejsza ilość danych przesyłanych między serwerami, odciąża sieć centrum danych i umożliwia trening i działanie większych modeli AI.

Według pracownika Oracle, który uczestniczył w budowie klastrów chipów, takie podejście poprawia również jakość trenowanych modeli AI, a system został zaprojektowany, by zmniejszyć częste awarie sprzętu podczas treningu modeli.

Jednak nowy projekt Nvidia sam w sobie miał słabe punkty. Wysoka integracja wielu chipów oznacza, że awaria jednego może wywołać efekt domina i zatrzymać pracę całego klastra składającego się z tysięcy chipów. Według trzech osób, które doświadczyły takich awarii, koszt wznowienia przerwanego treningu z najnowszego punktu kontrolnego może wynieść od kilku tysięcy do kilku milionów dolarów.

Wdrożenie systemów Nvidia Grace Blackwell od początku napotykało trudności. Latem 2024 roku wady projektowe chipów opóźniły produkcję masową, a różne problemy zaczęły narastać. Rok temu, po dostarczeniu pierwszych chipów Blackwell klientom, w szafach serwerowych pojawiły się przegrzania i usterki połączeń, przez co Microsoft, Amazon Web Services, Google i Meta zaczęły ograniczać zamówienia i przechodzić na poprzednie generacje chipów.

Pracownicy kilku usług chmurowych, które zamówiły chipy Grace Blackwell, stwierdzili, że Nvidia dostarczyła je klientom, zanim sprzęt i oprogramowanie zostały w pełni przetestowane i dostrojone.

Były menedżer Nvidia bronił tej strategii firmy, twierdząc, że „bóle wzrostu” serwerów z 72 chipami Grace Blackwell pokazują odwagę Jensen Huanga do przekraczania granic technologicznych, a nie dążenia do ostrożnego zarządzania. Obecni i byli pracownicy Nvidia uważają, że oczekiwanie, iż Nvidia przewidzi wydajność chipów w rzeczywistych, masowych wdrożeniach przez OpenAI, Meta i innych klientów, nie jest realistyczne.

Są również dowody na to, że OpenAI obecnie wdraża serwery Nvidia z 72 chipami Grace Blackwell na skalę masową. W czwartek OpenAI ogłosiło, że najnowszy model kodu AI, GPT-5.3-Codex, był trenowany i wdrażany „w całości na specjalnie zaprojektowanym systemie opartym na tych chipach”.

Wyzwania przy realizacji przychodów

Według menedżerów dwóch usług chmurowych, przez cały ubiegły rok opóźnienia we wdrożeniu chipów spowodowały straty u partnerów chmurowych OpenAI – firmy te zainwestowały ogromne środki w chipy Grace Blackwell, licząc na szybkie wdrożenie i zwrot kosztów, a dochody uzyskują dopiero wtedy, gdy klienci zaczynają korzystać z chipów.

Według jednego z menedżerów usług chmurowych uczestniczących w negocjacjach, aby złagodzić presję finansową, niektórzy dostawcy usług chmurowych w zeszłym roku uzgodnili z Nvidia rabaty, pozwalające płacić za chipy tylko za część rzeczywiście używanej mocy obliczeniowej.

Z kolei według pracownika Nvidia i pracownika partnera produkcyjnego Nvidia, Nvidia również zwróciła pieniądze niektórym klientom, którzy zwrócili serwery.

Wprowadzając nowe technologie, dostawcy usług chmurowych zwykle ponoszą początkowe koszty, a dochody pojawiają się dopiero, gdy klienci zaczynają korzystać ze sprzętu – dlatego marże w tym okresie są zazwyczaj niskie. Z dokumentu wynika, że w trzymiesięcznym okresie kończącym się w sierpniu ubiegłego roku, Oracle stracił prawie 100 milionów dolarów na wynajmie chipów Blackwell, ponieważ czas między zakończeniem konfiguracji serwerów a rozpoczęciem korzystania z nich (i płaceniem czynszu) przez klientów takich jak OpenAI był znacznie opóźniony.

W prezentacji przygotowanej dla kierownictwa Oracle Cloud wskazano, że marża brutto z wynajmu chipów Grace Blackwell była ujemna, głównie z powodu problemów z wdrożeniem chipów w centrum danych OpenAI w Abilene w Teksasie oraz opóźnień w odbiorze sprzętu przez klientów.

Oracle później poinformował inwestorów, że jego biznes AI w chmurze ostatecznie osiągnie marżę brutto na poziomie 30–40%, a prognoza ta uwzględnia okres inwestycji przed uruchomieniem centrum danych.

Rzecznik Oracle odmówił komentarza.

Redakcja: Ding Wenwu

0
0

Zastrzeżenie: Treść tego artykułu odzwierciedla wyłącznie opinię autora i nie reprezentuje platformy w żadnym charakterze. Niniejszy artykuł nie ma służyć jako punkt odniesienia przy podejmowaniu decyzji inwestycyjnych.

PoolX: Stakuj, aby zarabiać
Nawet ponad 10% APR. Zarabiaj więcej, stakując więcej.
Stakuj teraz!