DeepSeek的新年礼物mHC是个啥为大模型训练指路

2026-01-03 22:19:07 第一财经三龙汇之窗网37

1月1日，DeepSeek在新年前发布了一项重要研究，提出了一种名为mHC（流形约束超连接）的新网络架构。该架构旨在解决传统架构在大规模模型训练中的不稳定性问题，为下一代基础架构的演进指明了新方向。

新论文《mHC: Manifold-Constrained Hyper-Connections》由DeepSeek创始人兼CEO梁文锋及解振达、韦毅轩、曹焕琪等人共同完成。近年来，以超连接为代表的研究拓展了过去十年确立的通用残差连接范式，通过拓宽神经网络的信息传输通道和增加通道间的连接，提升了模型性能。然而，这也导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题。

DeepSeek的这篇论文针对这些问题提出了改进框架mHC架构。这一架构类似于给超连接的信息通道加了一套“交通规则”，在保留性能优势的同时，恢复了信息原样传递的特性，使模型训练更稳定且更容易扩展，从而推动大模型底层架构的工业化落地。

简单来说，如果将AI模型想象成一个很长的“计算链条”，传统方法的问题在于信息传递时管道较窄，容易造成“堵车”。后来的方法是将管道加宽，虽然信息流更多，但水流过猛有时会冲坏水管。mHC相当于给水管加了“智能调节阀”，确保水流稳定，运行时更节省资源。

DeepSeek表示，mHC为未来研究开辟了多个前景广阔的路径，希望它能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解，mHC或将有助于突破当前限制，并可能为下一代基础架构的演进指明新方向。

从行业意义上来看，mHC或许能让企业在训练更大规模的基础模型时减少硬件投入、缩短训练周期。算力有限的中小AI企业也能尝试开发更复杂的大模型，降低了大模型研发的门槛。此外，训练稳定性和可扩展性的提升能让大模型在更复杂的场景中落地，如需要超大规模参数的多模态模型和工业级的智能决策系统。

有行业人士认为，DeepSeek的这一研究是底层创新，这次创新的架构看向的是Transformer最基础的问题，结合此前的积累，预测DeepSeek有望在V4版本中做出重大更新。

自2025年初引发广泛关注以来，这一年DeepSeek虽未正式推出R2或V4等重大版本，但在模型迭代与开源上持续发力。仅12月就同步推出了DeepSeek-V3.2与V3.2-Special，11月底也开源了数学推理模型DeepSeek-Math-V2，成为目前首个达到国际奥数金牌水平并开放使用的数学模型。

免责声明：以上所展示的信息由网友自行发布，内容的真实性、准确性和合法性由发布者负责。三龙汇之窗网对此不承担任何保证责任, 三龙汇之窗网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张（包括但不限于侵犯著作权、商业信誉等），请与我们联系并出示相关证据，我们将按国家相关法规即时移除。

本文地址:http://www.wlchinajn.com/news/slh1755846.html

更多>同类资讯

资讯图文

女孩为养流浪猫一年“	英国17岁少女在家中被
95后男生写网文还清百	西安高三女生周日在校

今日热榜

投资财经

营销职场

商家产业

网站首页 | 网站地图 | RSS订阅 | SiteMap

免责声明：本站所有信息均来自互联网搜集，产品相关信息的真实性准确性均由发布单位及个人负责，请大家仔细辨认！并不代表本站观点,三龙汇之窗网对此不承担任何相关法律责任！如有信息侵犯了您的权益，请告知，本站将立刻删除。
友情提示：买产品需谨慎网站处理与建议邮箱：slhzc@qq.com

• 女生高考考一半发现填错答案，剩25分钟换答题卡	• 曝阿里巴巴出资15亿美元收购朴朴超市加码即时
• 希门尼斯因赛事错过父亲葬礼世界杯进球泪洒赛	• 女子半年3次晕倒确诊血管迷走性晕厥情绪激动成
• 美气象机构宣布厄尔尼诺现象形成可能增强至强	• 女子独游淹水古墓陪葬品漂到脚边网友：你胆量
• 韩国队赢球后疯狂庆祝跪地怒吼	• “退钱哥”说开幕式万元山顶位很值
• 美国5月退还近220亿美元关税退税程序稳步推进	• 加拿大航空一飞行员无照飞行16年伪造执照骗过

DeepSeek的新年礼物mHC是个啥 为大模型训练指路

DeepSeek的新年礼物mHC是个啥为大模型训练指路