DeepSeek publica un nuevo artículo firmado por Liang Wenfeng: propone la nueva arquitectura mHC para mejorar la estabilidad del entrenamiento de grandes modelos
PANews, 1 de enero: Según informó Golden Ten Data, DeepSeek publicó un nuevo artículo en el que propone una nueva arquitectura llamada Manifold-Constrained Hyperconnection (mHC), diseñada para abordar los problemas de inestabilidad en el entrenamiento y las limitaciones de escalabilidad en la tecnología de Hyperconnection (HC) causados por la pérdida de la propiedad de mapeo de identidad. Esta arquitectura logra mejoras significativas en el rendimiento y una escalabilidad superior al mapear el espacio de conexión residual de HC a una variedad específica para restaurar la propiedad de mapeo de identidad, combinando además una rigurosa optimización de infraestructura para garantizar la eficiencia. DeepSeek prevé que mHC, como una extensión flexible y práctica de HC, contribuirá a una comprensión más profunda del diseño de arquitecturas topológicas y señalará direcciones prometedoras para la evolución de los modelos base. El artículo fue co-escrito por Zhenda Xie, Yixuan Wei y Huanqi Cao como primeros autores, y Wenfeng Liang también figura en la lista de autores.
Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.
También te puede gustar
En tendencia
MásEnergean Oil anunció que llegó a un acuerdo con Chevron para adquirir el 31% de participación operativa en el bloque 14 offshore de Angola y el 15,5% de participación no operativa en el bloque 14K.
Hyperliquid: Las operaciones de activos RWA en la plataforma han alcanzado máximos históricos en las últimas dos semanas.
