DeepSeek发布全新AI训练方法,被分析师称为“突破性进展” 据《商业内幕》(Business Insider)报道,中国人工智能初创公司 DeepSeek 在2026年伊始发布了一篇最新研究论文,提出一种全新的大模型训练方法。多位行业分析师认为,这一方法有望显著提升大模型的可扩展性,是人工智能领域的一项“突破性进展”。 报道称,DeepSeek 本周公布的论文由公司创始人梁文锋共同署名,介绍了一种名为“流形约束超连接”(Manifold-Constrained Hyper-Connections,简称 mHC)的训练方法。该方法旨在解决大型语言模型在规模不断扩张时,容易出现训练不稳定甚至“崩溃”的难题。 论文指出,随着语言模型规模扩大,研究人员通常会通过增强模型内部不同模块之间的信息共享来提升性能,但这也显著增加了系统不稳定的风险。DeepSeek 提出的 mHC 方法,允许模型在受控条件下进行更丰富的内部信息交互,从而在模型持续扩展的同时,保持训练稳定性与计算效率。 Counterpoint Research 的人工智能首席分析师孙伟(Wei Sun)在接受《商业内幕》采访时表示,DeepSeek 的这一做法堪称一次“引人注目的突破”。她指出,该公司通过整合多种技术手段,将额外训练成本控制在较低水平,即便成本略有增加,也可能带来显著的性能提升。 孙伟认为,这篇论文不仅是一项技术成果,也是一种“能力宣言”,展示了 DeepSeek 具备从底层重新设计训练体系的能力,能够将快速实验与非常规研究思路结合起来。她还提到,DeepSeek 可能再次绕开算力瓶颈,实现智能水平的跃升,类似其在2025年1月推出 R1 推理模型时所带来的“斯普特尼克时刻”。当时,R1 模型以远低于竞争对手的成本,实现了与 ChatGPT o1 等顶级模型相当的性能,曾一度震动科技行业和美国股市。 Omdia 技术研究与咨询公司的首席分析师苏联杰(Lian Jye Su)则表示,这项研究成果可能在整个行业引发连锁反应,促使其他人工智能实验室开发各自版本的类似方法。他认为,DeepSeek 在分享关键研究成果的同时,依然通过新模型保持差异化价值,体现出中国人工智能产业日益增强的自信,也将“开放性”视为一种战略优势。 报道指出,这篇论文发布之际,正值 DeepSeek 被曝正在推进下一代旗舰模型 R2 的研发。此前,R2 原计划于2025年中发布,但因模型性能未达预期以及先进 AI 芯片供应紧张而被推迟。尽管论文中并未直接提及 R2,但其发布时间仍引发业内猜测。 苏联杰认为,结合 DeepSeek 以往的做法,新提出的训练架构“几乎可以确定”会被应用到下一代模型中。不过,孙伟持相对谨慎态度。她表示,DeepSeek 未必会单独推出 R2,而是可能将该技术作为未来 V4 模型的核心基础。 《商业内幕》同时指出,尽管 DeepSeek 在技术层面不断取得进展,但其在西方市场的影响力仍有限,分发能力和市场覆盖度尚无法与 OpenAI、谷歌等领先 AI 实验室相提并论。 |