Das demnächst erscheinende Inferenz-Chipsystem von Nvidia integriert die „Language Processing Unit“ (LPU)-Technologie von Groq und verwendet eine völlig andere Architektur als herkömmliche GPUs. Durch eine umfassendere Integration von SRAM und 3D-Stacking-Technologie ist es speziell darauf ausgelegt, die Latenz- und Speicherbandbreiten-Engpässe bei der Inferenz großer Modelle zu optimieren.

Das demnächst erscheinende Inferenz-Chipsystem von Nvidia integriert die „Language Processing Unit“ (LPU)-Technologie von Groq und verwendet eine völlig andere Architektur als herkömmliche GPUs. Durch eine umfassendere Integration von SRAM und 3D-Stacking-Technologie ist es speziell darauf ausgelegt, die Latenz- und Speicherbandbreiten-Engpässe bei der Inferenz großer Modelle zu optimieren.

老虎证券2026/02/28 04:09

Original anzeigen

Dieses neue Produkt könnte auf dem Design der nächsten Generation der Feynman-Architektur basieren und dadurch den Energieverbrauch und die Kosten für den Betrieb von AI-Agenten erheblich senken. OpenAI hat zugesagt, 30 Milliarden US-Dollar zu investieren und zu beschaffen. Nvidia plant, auf der GTC-Entwicklerkonferenz im nächsten Monat einen völlig neuen Inferenz-Chip vorzustellen, der die Groq „Language Processing Unit“ (LPU)-Technologie integriert. Dies zeigt, dass Nvidia die Transformation in Richtung Inferenz-Computing beschleunigt, um der dringenden Nachfrage der Kunden nach leistungsstarken und kostengünstigen Rechenlösungen gerecht zu werden. Laut Wall Street Journal wurde dieses neue System, das von Nvidia-CEO Jensen Huang als „etwas, das die Welt noch nie gesehen hat“ bezeichnet wird, speziell entwickelt, um die Abfrageantworten von AI-Modellen zu beschleunigen. Die Einführung dieses Produkts wird voraussichtlich die aktuelle Marktstruktur für AI-Rechenleistung grundlegend verändern und direkte Auswirkungen auf Cloud-Service-Anbieter und institutionelle Investoren haben, die nach kostengünstigeren Alternativen suchen. Als wichtiges Zeichen für die erste Anerkennung dieser Technologie durch den Markt hat OpenAI, der Entwickler von ChatGPT, bereits zugestimmt, einer der größten Kunden des neuen Prozessors zu werden und angekündigt, von Nvidia große Mengen an „dedizierter Inferenzkapazität“ zu erwerben. Dieser Schritt festigt nicht nur Nvidias Kernkundenbasis, sondern sendet auch ein klares Signal an den Markt: Die zugrunde liegende Infrastruktur zur Unterstützung autonomer AI-Agenten verlagert sich von groß angelegtem Pre-Training hin zu effizienter Inferenz. Angesichts des intensiven Wettbewerbs durch eine bestimmte Börse und zahlreiche Start-ups durchbricht Nvidia die traditionelle Abhängigkeit von Grafikprozessoren (GPU). Durch die Einführung neuer Technologiearchitekturen und die Erforschung reiner CPU-Bereitstellungsmodelle versucht das Unternehmen, seine marktbeherrschende Stellung in der nächsten Entwicklungsphase der AI-Branche weiter zu festigen.Integration des LPU-Designs zur Überwindung von Engpässen bei der Inferenz großer ModelleMit dem Übergang der AI-Branche vom Modelltraining zur tatsächlichen Anwendungsbereitstellung rückt das Inferenz-Computing in den Mittelpunkt. AI-Inferenz ist hauptsächlich in zwei Phasen unterteilt: Pre-Fill und Decode, wobei der Decode-Prozess bei großen AI-Modellen besonders langsam ist. Um diesen technischen Engpass zu überwinden, setzt Nvidia auf externe Technologieintegration, um physikalische Grenzen zu durchbrechen. Laut Wall Street Journal erwarb Nvidia Ende letzten Jahres für 20 Milliarden US-Dollar eine Schlüsseltechnologielizenz des Start-ups Groq und übernahm im Rahmen eines groß angelegten „Kern-Einstellungs“-Deals das Führungsteam, einschließlich des Gründers Jonathan Ross. Die von Groq entwickelte „Language Processing Unit“ (LPU) verwendet eine völlig andere Architektur als herkömmliche GPUs und zeichnet sich durch eine außergewöhnlich hohe Effizienz bei Inferenzaufgaben aus. Branchenanalysten gehen davon aus, dass das bevorstehende neue Produkt eine disruptive Feynman-Architektur der nächsten Generation beinhalten könnte. Laut einem früheren Artikel von Wall Street News könnte die Feynman-Architektur eine breitere Integration von SRAM und sogar eine tiefe Integration der LPU durch 3D-Stacking-Technologie nutzen, um gezielt die beiden Hauptengpässe Latenz und Speicherbandbreite bei der Inferenz zu optimieren und so den Energieverbrauch und die Kosten für den Betrieb von AI-Agenten erheblich zu senken.Erweiterung der reinen CPU-Bereitstellung zur Bereitstellung vielfältiger RechenoptionenParallel zur Einführung der LPU-Architektur passt Nvidia auch flexibel die Nutzung seiner traditionellen Prozessoren an. Die bisherige Standardpraxis von Nvidia bestand darin, die Vera CPU mit der leistungsstarken Rubin GPU in Rechenzentrumsservern zu bündeln. Bei bestimmten AI-Agenten-Workloads erwies sich diese Konfiguration jedoch als zu kostspielig und ineffizient. Einige große Unternehmenskunden stellten fest, dass reine CPU-Umgebungen bei bestimmten AI-Aufgaben effizienter sind. Im Einklang mit diesem Trend kündigte Nvidia diesen Monat eine erweiterte Zusammenarbeit mit Meta Platforms an und führte die erste groß angelegte reine CPU-Bereitstellung durch, um Metas AI-Agenten für gezielte Werbung zu unterstützen. Diese Zusammenarbeit wird vom Markt als frühes Fenster für Nvidias strategische Neuausrichtung gesehen und zeigt, dass das Unternehmen über das reine GPU-Verkaufsmodell hinausgeht und versucht, durch vielfältige Hardwarekombinationen verschiedene Segmente des AI-Marktes zu erschließen.Marktnachfrage im Wandel, Wettbewerb verschärft sichDiese Entwicklung des zugrunde liegenden Hardware-Designs ist eine direkte Folge des explosionsartigen Bedarfs der Technologiebranche an AI-Agenten-Anwendungen. Viele Unternehmen, die AI-Agenten entwickeln und betreiben, stellen fest, dass herkömmliche GPUs zu teuer sind und beim tatsächlichen Betrieb von Modellen nicht die beste Wahl darstellen. Die Aktivitäten von OpenAI unterstreichen diesen Trend. Neben der Zusage, Nvidias neues System zur Verbesserung seines schnell wachsenden Codex-Tools zu beschaffen, hat OpenAI letzten Monat auch eine milliardenschwere Rechenkooperation mit dem Start-up Cerebras abgeschlossen. Laut Cerebras-CEO Andrew Feldman übertreffen deren auf Inferenz spezialisierte Chips die GPUs von Nvidia in Bezug auf Geschwindigkeit. Darüber hinaus hat OpenAI einen bedeutenden Vertrag über die Nutzung der Trainium-Chips einer bestimmten Börse unterzeichnet. Nicht nur Start-ups, sondern auch große Cloud-Service-Anbieter beschleunigen die Eigenentwicklung von Chips. Anthropic Claude Code, weithin als Marktführer im Bereich automatisiertes Coding angesehen, verlässt sich derzeit hauptsächlich auf Chips, die von einer bestimmten Börse und deren Tochterunternehmen entwickelt wurden, anstatt auf Produkte von Nvidia. Angesichts der Angriffe der Wettbewerber betonte Jensen Huang im Interview mit wccftech, dass Nvidia sich von einem reinen Chiplieferanten zu einem umfassenden AI-Ökosystemanbieter entwickelt, der Halbleiter, Rechenzentren, Cloud und Anwendungen abdeckt. Für Investoren wird die GTC-Konferenz im nächsten Monat ein entscheidender Moment sein, um zu prüfen, ob Nvidia seinen Mythos eines 90%igen Marktanteils auch im Zeitalter der Inferenz fortsetzen kann.

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn

APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.

Jetzt Lockedn!