正式官宣!华为昇腾910C芯片成功完成1.6万亿DeepSeek全参数后训练 国产算力终于跨过最难一关

艾奇百科 百科资讯 2

6月7日消息,这两天国产AI芯片最重磅的消息,没有之一。

6月5日上午,深圳发布官方账号率先发布通报,正式确认了这个让整个行业振奋的消息。近日,深圳河套学院AI训练平台项目团队,联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为有关团队,协同深智城AI算力平台,面向国产算力大模型训练开展联合攻关。依托昇腾910C国产AI算力集群,完成1.6万亿参数大模型DeepSeek-V4-Pro全参数后训练。

消息一出,国内科技媒体第一时间跟进。当天,南华早报等海外主流科技媒体也跟进报道,称这一进展标志着在美国制裁持续收紧的背景下,中国半导体行业正努力从支持基础AI推理,迈向更复杂的模型训练阶段。

深圳发布在报道中明确指出,"此次实践为全球第三方机构在国产算力平台上完成该级别模型训练的相关探索,积累了重要经验,也印证了国产AI芯片可支撑世界级超大参数模型训练工作"。

但在我看来,这不是一次试探性的尝试,而是一次里程碑式的技术突破。它用无可辩驳的工程结果证明,国产AI芯片已经跨过了那条最难的门槛。

先搞懂这几个词

很多人看新闻只记住了"1.6万亿参数"这个数字,却没搞懂"全参数后训练"这六个字的分量。

AI大模型从诞生到能用,其实就两个核心阶段:训练和推理。

推理:运行一个已经训练完成的模型来处理用户请求。这个过程中模型的所有参数都是固定不变的,只是利用已学到的知识生成输出。推理对算力的要求相对较低,更看重延迟、吞吐量和能效比。这也是国产芯片此前最擅长的领域,国内市场上已有大量AI应用采用国产推理芯片部署。

训练:通过输入海量数据,不断调整模型内部参数,让模型学会新知识和新技能的过程。训练的难度和算力需求与推理不在一个量级,通常需要数千甚至数万张芯片组成的集群连续运行数周甚至数月。

训练又分为两个关键阶段:

预训练:大模型的基础阶段。给模型喂入万亿级别的文本、图像等多模态数据,让它掌握基本的语言能力、世界知识和通用逻辑。

后训练:在预训练的基础上,通过人类反馈强化学习(RLHF)、监督微调(SFT)等技术,让模型学会遵循人类指令、遵守安全规则、完成特定任务。这是决定大模型实际使用体验的关键环节。

全参数后训练:指在训练过程中更新模型的全部参数,而不是只更新其中一小部分。对于DeepSeek-V4-Pro来说,就是要同时调整它的1.6万亿个参数。与之相对的是"部分参数微调",只更新模型的最后几层或者少量适配器参数。全参数训练能够最大限度地提升模型性能,但也对算力、存储、通信和系统稳定性提出了近乎苛刻的要求。

深圳发布的那个比喻特别形象:如果把训练一个万亿级参数的AI大模型比作解一道超级复杂的数学题,那么每一张计算卡就像一名解题员。他们不仅要分工明确、日夜不停地连轴转,还不能有人偷懒、不能有人出错,更不能有人掉队。

"以前的国产算力更多是让大模型'能用',也就是推理部署,就像给模型修了一条单行道,输入一个问题,输出一个答案。"

而全参数后训练,"是要让模型学会自我反思和调整,相当于在单行道的基础上,又增加了复杂的立交桥和多条反馈回路,计算量和通信量瞬间翻了好几倍。"

而且DeepSeek-V4-Pro用的还是现在最主流的混合专家(MoE)架构,这就更难了。可以把它想象成一个庞大的“专家团”,平时推理的时候,只需要激活少数几个"专家"来回答问题。但训练的时候,所有专家都要同时学习,还要互相通信同步信息。光是专家之间的数据交换量,就是普通模型的几十倍。

这也是为什么之前业内普遍认为,国产芯片根本扛不住这么大的全参数训练。

这次能成靠的是三个实打实的工程突破

面对这么大的挑战,这次团队没有搞什么花里胡哨的概念,就是靠三个扎扎实实的工程突破,把不可能变成了可能。

第一个是"显存拼图"。1.6万亿个参数的数据量极其庞大,不可能塞进任何一张单独的计算卡。团队设计了一套极其精密的分布式承载方案,把整个模型像拼图一样,拆成一小块一小块,精确地分配到每一张芯片上。哪块卡负责哪部分参数,什么时候需要和其他卡交换数据,都算得丝毫不差。

第二个是"负载均衡"。混合专家模型最头疼的问题就是忙闲不均。有的专家任务排成长队,有的专家却闲得没事干。之前很多国产集群跑MoE模型,算力利用率普遍偏低。这次团队专门针对MoE架构优化了调度算法,动态给每个专家分配任务,彻底解决了跨卡通信拥堵的问题。

第三个是"全程不掉线"。做过大模型训练的人都知道,最怕的就是跑了几天几夜,突然一个硬件故障或软件错误,整个训练直接崩溃,前面所有的时间和算力都打了水漂。这次训练一共跑了1500多步,全程没有出现一次中断或者报错。这背后是一整套完整的全链路监控和容错体系,是无数个日夜调试出来的结果。

最后官方公布的数据是,模型算力利用率超过30%,关键训练算子效率提升14%。可能有人觉得30%不高,但在大模型训练领域,这已经是非常不错的工业级水平。要知道,就算用最顶级的海外芯片,很多团队的实际利用率也就在40%左右。

比技术突破更重要的是我们终于有了自己的练兵场

很多人讨论这次突破,都只盯着芯片本身。但在我看来,这次事件最被低估的价值,其实是人才培养。

深圳河套学院这次没有把这个项目当成一个单纯的技术攻关,而是把它变成了一个活生生的课堂。他们让学生直接进入真实的训练场景,从最基础的环境搭建开始,全程参与整个训练过程。

截至目前,这个项目已经培养了42名学生,形成了青年教师指导、博士生核心攻坚、工程团队支撑的完整梯队。这些人不是在课本上学大模型训练,而是真刀真枪地跑过万亿级模型的全流程。他们知道哪里会出问题,知道怎么解决问题,这才是国产AI产业最宝贵的财富。

很多人说国产AI缺芯片,其实更缺的是真正有实战经验的工程师。大模型训练是一门工程科学,很多东西是书本上学不到的,必须亲手跑过才能明白。之前我们没有自己的高端算力平台,很多年轻人连摸一下万亿级集群的机会都没有。现在这个局面,终于被打破了。

写在最后

当然,我们必须清醒地认识到,国产算力和世界顶尖水平之间还有不小的差距。无论是单卡性能,还是整个软件生态的完善程度,我们都还有很长的路要走。

但这次突破的意义,怎么强调都不为过。它证明了一件事:在大模型训练这个曾经被海外垄断的领域,我们不仅能做,而且能做得很好。它给整个行业注入了信心,也给所有正在这条路上努力的人,点亮了一盏灯。

深圳发布在通报的最后说,接下来,深圳河套学院将联合生态伙伴持续优化算力集群性能,围绕长文本处理、AI智能体等方向开展技术探索,持续挖掘国产算力应用潜力。

我相信,这只是一个开始。当越来越多的团队开始用国产芯片训练大模型,当整个生态慢慢成熟起来,国产AI产业一定会迎来属于自己的时代。