Sa unang anibersaryo ng paglabas ng DeepSeek-R1, inilantad ang bagong modelo na "MODEL1"
BlockBeats balita, Enero 21, ayon sa ulat ng Quantum Bit, sa unang anibersaryo ng DeepSeek-R1 ay inilantad ang bagong modelo na "MODEL1". In-update ng DeepSeek ang FlashMLA code sa GitHub, kung saan sa 114 na mga file ay may 28 beses na nabanggit ang MODEL1, na lumalabas bilang ibang modelo kasama ang V32. Alam na ang V32 ay DeepSeek-V3.2, kaya't malamang na ang MODEL1 ay isang bagong arkitektura. Ang mga partikular na pagkakaiba sa code ay makikita sa KV cache layout, sparsity handling, at FP8 decoding, na may ilang pagkakaiba sa memory optimization.
Disclaimer: Ang nilalaman ng artikulong ito ay sumasalamin lamang sa opinyon ng author at hindi kumakatawan sa platform sa anumang kapasidad. Ang artikulong ito ay hindi nilayon na magsilbi bilang isang sanggunian para sa paggawa ng mga desisyon sa investment.
Baka magustuhan mo rin
Trending na balita
Higit paPangkalahatang pananaw sa susunod na linggo: Muling lumitaw ang multo ng stagflation, nahaharap ang Federal Reserve sa isang mahirap na sitwasyon, at ang CPI at PCE na datos ang magiging pangunahing mga variable.
Pangkalahatang Tanawin ng Macro sa Susunod na Linggo: Bumalik ang Multo ng Stagflation, CPI at PCE Data ang Nagiging Pangunahing mga Variable
