O sistema de chips de inferência que a Nvidia está prestes a lançar integra a tecnologia “Unidade de Processamento de Linguagem” (LPU) da Groq, adotando uma arquitetura completamente diferente das GPUs tradicionais. Ele utiliza uma integração mais ampla de SRAM e tecnologia de empilhamento 3D, sendo especialmente otimizado para reduzir a latência e os gargalos de largura de banda de memória em inferência de grandes modelos.

O sistema de chips de inferência que a Nvidia está prestes a lançar integra a tecnologia “Unidade de Processamento de Linguagem” (LPU) da Groq, adotando uma arquitetura completamente diferente das GPUs tradicionais. Ele utiliza uma integração mais ampla de SRAM e tecnologia de empilhamento 3D, sendo especialmente otimizado para reduzir a latência e os gargalos de largura de banda de memória em inferência de grandes modelos.

老虎证券2026/02/28 04:09

Mostrar original

O novo produto pode ser baseado na arquitetura de próxima geração Feynman, reduzindo significativamente o consumo de energia e o custo operacional de agentes de IA. A OpenAI prometeu adquirir e investir US$ 30 bilhões. A Nvidia planeja lançar no próximo mês, durante a conferência de desenvolvedores GTC, um novo chip de inferência que integra a tecnologia “Language Processing Unit” (LPU) da Groq, sinalizando a aceleração da transição da Nvidia para o campo de computação de inferência, em resposta à crescente demanda dos clientes por soluções computacionais de alta eficiência e baixo custo. Segundo o Wall Street Journal, este novo sistema, descrito pelo CEO da Nvidia, Jensen Huang, como “algo que o mundo nunca viu”, foi projetado especificamente para acelerar as respostas de consulta de modelos de IA. A expectativa é que o lançamento deste produto redefina o cenário atual do mercado de poder computacional para IA, impactando diretamente provedores de serviços em nuvem e investidores corporativos que buscam alternativas mais econômicas. Como um importante sinal de reconhecimento inicial do mercado, a OpenAI, desenvolvedora do ChatGPT, já concordou em ser um dos maiores clientes do novo processador e anunciou a compra em larga escala de “capacidade dedicada de inferência” da Nvidia. Esta iniciativa não só fortalece a base de clientes da Nvidia, como também envia um sinal claro ao mercado: a infraestrutura subjacente que sustenta agentes autônomos de IA está migrando do pré-treinamento em larga escala para a inferência eficiente. Diante da intensa concorrência de certas exchanges e inúmeras startups, a Nvidia está rompendo com a dependência exclusiva dos tradicionais processadores gráficos (GPU). Ao introduzir novas arquiteturas tecnológicas e explorar modelos de implantação baseados apenas em processadores centrais (CPU), a empresa busca consolidar sua posição dominante na próxima fase de evolução da indústria de IA. Integração do design LPU ataca gargalos de inferência em grandes modelos Com a transição da indústria de IA do treinamento de modelos para a implantação em aplicações reais, a computação de inferência tornou-se o foco central. A inferência de IA é composta principalmente pelas etapas de pré-preenchimento (pre-fill) e decodificação (decode), sendo que o processo de decodificação de grandes modelos de IA é especialmente lento. Para superar esse gargalo tecnológico, a Nvidia optou por integrar tecnologias externas e romper limites físicos. Segundo o Wall Street Journal, no final do ano passado, a Nvidia investiu US$ 20 bilhões para obter a licença de tecnologias-chave da startup Groq e, em uma grande operação de “contratação central”, absorveu a equipe executiva, incluindo o fundador Jonathan Ross. A LPU desenvolvida pela Groq adota uma arquitetura completamente diferente das GPUs tradicionais, apresentando altíssima eficiência no processamento de funções de inferência. Analistas do setor acreditam que o novo produto a ser lançado pode envolver a revolucionária arquitetura Feynman de próxima geração. Segundo artigo anterior do Wall Street News, a arquitetura Feynman pode adotar uma integração mais ampla de SRAM e até mesmo incorporar a LPU por meio de tecnologia de empilhamento 3D, otimizando especificamente os dois principais gargalos da inferência: latência e largura de banda de memória, reduzindo drasticamente o consumo de energia e o custo operacional de agentes de IA. Expansão da implantação apenas com CPU oferece opções computacionais diversificadas Ao mesmo tempo em que introduz a arquitetura LPU, a Nvidia também está ajustando de forma flexível o uso de seus processadores tradicionais. A prática padrão da Nvidia era combinar a CPU Vera com sua poderosa GPU Rubin em servidores de data center, mas para certas cargas de trabalho específicas de agentes de IA, essa configuração mostrou-se cara e ineficiente em termos energéticos. Alguns grandes clientes corporativos descobriram que ambientes apenas com CPU são mais eficientes para tarefas específicas de IA. Seguindo essa tendência, a Nvidia anunciou este mês a ampliação da parceria com a Meta Platforms, realizando a primeira grande implantação apenas com CPU para suportar os agentes de IA de direcionamento de anúncios da Meta. O mercado vê essa colaboração como uma janela inicial do ajuste estratégico da Nvidia, indicando que a empresa está indo além do modelo de vendas exclusivo de GPU e buscando capturar diferentes segmentos do mercado de IA com uma combinação diversificada de hardware. Mudança na demanda do mercado e intensificação da concorrência Esta evolução no design de hardware de base é resultado direto da explosão da demanda do setor de tecnologia por aplicações de agentes de IA. Muitas empresas que constroem e operam agentes de IA descobriram que o custo das GPUs tradicionais é muito alto e que elas não são a melhor escolha para a execução real dos modelos. Os movimentos da OpenAI destacam essa tendência. Além de prometer adquirir o novo sistema da Nvidia para aprimorar sua ferramenta Codex, que cresce rapidamente, a OpenAI fechou no mês passado uma parceria de computação de bilhões de dólares com a startup Cerebras. Segundo o CEO da Cerebras, Andrew Feldman, seus chips focados em inferência superam as GPUs da Nvidia em velocidade. Além disso, a OpenAI também assinou um importante acordo para utilizar os chips Trainium de uma exchange. Não são apenas as startups; os principais provedores de serviços em nuvem também estão acelerando o desenvolvimento de chips próprios. O Anthropic Claude Code, amplamente visto como líder no mercado de codificação automática, atualmente depende principalmente de chips projetados por exchanges e subsidiárias de exchanges, e não dos produtos da Nvidia. Diante do cerco dos concorrentes, Jensen Huang destacou em entrevista ao wccftech que a Nvidia está se transformando de uma simples fornecedora de chips para uma construtora de um ecossistema completo de IA, abrangendo semicondutores, data centers, nuvem e aplicações. Para os investidores, a conferência GTC do próximo mês será um ponto crucial para avaliar se a Nvidia conseguirá manter seu domínio de 90% do mercado na era da inferência.

Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.

PoolX: bloqueie e ganhe!

Até 10% de APR - Quanto mais você bloquear, mais poderá ganhar.

Bloquear agora!

Talvez também goste

SpaceX está considerando um IPO, e os cerca de 8.285 bitcoins que possui estão sob escrutínio

金色财经•2026/03/07 19:25

Dados: Se ETH ultrapassar US$ 2.071, a intensidade acumulada de liquidação de posições vendidas nas principais CEXs atingirá US$ 664 milhões.

Chaincatcher•2026/03/07 18:32

Co-fundador da ETH supostamente vendeu ETH no valor de 157 milhões de dólares

Chaincatcher•2026/03/07 15:41

Renaiss divulga roteiro do BETA 2.0: lança a sub-marca de colecionáveis com IA, Auranaiss Intelligence, e inicia o programa de Hackathon para o ecossistema

BlockBeats•2026/03/07 12:39