Sistem chip inferensi yang akan segera diluncurkan oleh Nvidia mengintegrasikan teknologi "Language Processing Unit" (LPU) dari Groq, menggunakan arsitektur yang sangat berbeda dari GPU tradisional, dengan integrasi SRAM yang lebih luas dan teknologi stacking 3D, yang secara khusus dioptimalkan untuk mengatasi hambatan latensi dan bandwidth memori dalam inferensi model besar.

Sistem chip inferensi yang akan segera diluncurkan oleh Nvidia mengintegrasikan teknologi "Language Processing Unit" (LPU) dari Groq, menggunakan arsitektur yang sangat berbeda dari GPU tradisional, dengan integrasi SRAM yang lebih luas dan teknologi stacking 3D, yang secara khusus dioptimalkan untuk mengatasi hambatan latensi dan bandwidth memori dalam inferensi model besar.

老虎证券2026/02/28 04:09

Tampilkan aslinya

Produk baru ini kemungkinan akan didasarkan pada desain arsitektur Feynman generasi berikutnya, sehingga secara signifikan mengurangi konsumsi energi dan biaya operasional agen AI. OpenAI berkomitmen untuk membeli dan berinvestasi sebesar 30 miliar dolar AS. Nvidia berencana meluncurkan chip inferensi baru yang mengintegrasikan teknologi Groq "Language Processing Unit" (LPU) pada konferensi pengembang GTC bulan depan, menandai percepatan transformasi Nvidia ke bidang komputasi inferensi untuk memenuhi permintaan pelanggan akan solusi komputasi berkinerja tinggi dan berbiaya rendah. Menurut laporan Wall Street Journal, sistem baru yang disebut oleh CEO Nvidia Jensen Huang sebagai "sesuatu yang belum pernah dilihat dunia", dirancang khusus untuk mempercepat respons query model AI. Peluncuran produk ini diperkirakan akan merombak lanskap pasar daya komputasi AI saat ini, secara langsung mempengaruhi penyedia layanan cloud dan investor korporat yang mencari alternatif yang lebih hemat biaya. Sebagai tanda awal pengakuan pasar terhadap teknologi ini, pengembang ChatGPT OpenAI telah setuju menjadi salah satu pelanggan terbesar prosesor baru ini, dan mengumumkan akan membeli kapasitas inferensi khusus dalam skala besar dari Nvidia. Langkah ini tidak hanya memperkuat basis pelanggan inti Nvidia, tetapi juga mengirimkan sinyal jelas ke pasar: infrastruktur dasar yang mendukung agen AI otonom sedang beralih dari pre-training skala besar ke inferensi yang efisien. Dalam menghadapi persaingan ketat dari bursa tertentu dan banyak perusahaan rintisan, Nvidia sedang melampaui ketergantungan tunggal pada GPU tradisional. Dengan memperkenalkan arsitektur teknologi baru dan mengeksplorasi mode deployment berbasis CPU murni, perusahaan ini berupaya mempertahankan dominasinya di pasar pada tahap evolusi industri AI berikutnya. Integrasi desain LPU, mengatasi hambatan inferensi model besar Seiring industri AI beralih dari pelatihan model ke deployment aplikasi nyata, komputasi inferensi menjadi fokus utama. Inferensi AI terutama dibagi menjadi dua tahap: pre-fill dan decode, di mana proses decode pada model AI besar sangat lambat. Untuk mengatasi hambatan teknis ini, Nvidia memilih integrasi teknologi eksternal guna menembus batas fisik. Menurut Wall Street Journal, pada akhir tahun lalu Nvidia mengeluarkan 20 miliar dolar AS untuk memperoleh lisensi teknologi utama dari perusahaan rintisan Groq, dan dalam transaksi "perekrutan inti" besar-besaran, merekrut tim eksekutif termasuk pendiri Jonathan Ross. LPU yang dirancang Groq menggunakan arsitektur yang sangat berbeda dari GPU tradisional, menunjukkan efisiensi luar biasa dalam menangani fungsi inferensi. Analisis industri percaya bahwa produk baru yang akan dirilis kemungkinan melibatkan arsitektur Feynman generasi berikutnya yang revolusioner. Menurut artikel Wall Street News sebelumnya, arsitektur Feynman mungkin mengadopsi skema integrasi SRAM yang lebih luas, bahkan mengintegrasikan LPU secara mendalam melalui teknologi stacking 3D, khusus untuk mengoptimalkan dua hambatan utama inferensi: latensi dan bandwidth memori, sehingga secara signifikan mengurangi konsumsi energi dan biaya operasional agen AI. Ekspansi deployment CPU murni, menawarkan pilihan komputasi yang beragam Bersamaan dengan pengenalan arsitektur LPU, Nvidia juga secara fleksibel menyesuaikan cara penggunaan prosesor tradisionalnya. Praktik standar Nvidia sebelumnya adalah menggabungkan Vera CPU dengan Rubin GPU yang kuat dalam server pusat data, namun untuk beban kerja agen AI tertentu, konfigurasi ini terbukti terlalu mahal dan kurang efisien. Beberapa pelanggan korporat besar menemukan bahwa lingkungan CPU murni lebih efisien untuk menjalankan tugas AI tertentu. Mengikuti tren ini, bulan ini Nvidia mengumumkan perluasan kerja sama dengan Meta Platforms, melakukan deployment CPU murni dalam skala besar untuk pertama kalinya guna mendukung agen AI penargetan iklan Meta. Kerja sama ini dipandang pasar sebagai jendela awal penyesuaian strategi Nvidia, menunjukkan bahwa perusahaan ini melampaui model penjualan GPU tunggal dan berupaya mengunci berbagai segmen pasar AI melalui kombinasi perangkat keras yang beragam. Pergeseran permintaan pasar, persaingan terus meningkat Evolusi desain perangkat keras dasar ini secara langsung berasal dari ledakan permintaan aplikasi agen AI di industri teknologi. Banyak perusahaan yang membangun dan mengoperasikan agen AI menemukan bahwa biaya GPU tradisional terlalu mahal, dan bukan pilihan terbaik untuk menjalankan model secara nyata. Langkah OpenAI menyoroti tren ini. Selain berkomitmen membeli sistem baru Nvidia untuk meningkatkan alat Codex yang tumbuh pesat, bulan lalu OpenAI juga menjalin kerja sama komputasi bernilai miliaran dolar dengan perusahaan rintisan Cerebras. Menurut CEO Cerebras Andrew Feldman, chip mereka yang berfokus pada inferensi melampaui GPU Nvidia dalam hal kecepatan. Selain itu, OpenAI juga menandatangani perjanjian besar untuk menggunakan chip Trainium dari bursa tertentu. Tidak hanya perusahaan rintisan, penyedia layanan cloud utama juga mempercepat pengembangan chip internal mereka. Anthropic Claude Code, yang secara luas dianggap sebagai pemimpin pasar auto-coding, saat ini terutama mengandalkan chip yang dirancang oleh bursa tertentu dan anak perusahaannya, bukan produk Nvidia. Menghadapi tekanan dari para pesaing, Jensen Huang dalam wawancara dengan wccftech menekankan bahwa Nvidia sedang bertransformasi dari sekadar pemasok chip menjadi pembangun ekosistem AI lengkap yang mencakup semikonduktor, pusat data, cloud, dan aplikasi. Bagi para investor, konferensi GTC bulan depan akan menjadi titik krusial untuk menguji apakah Nvidia dapat mempertahankan mitos pangsa pasar 90% di era inferensi.

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

PoolX: Raih Token Baru

APR hingga 12%. Selalu aktif, selalu dapat airdrop.

Kunci sekarang!