DeepSeek流形超连接简介 | AI生成和翻译

Home 2026.01

Question: What is a comprehensive introduction to mHC (Manifold Hyper Connection) from DeepSeek, recently?

Answer:

Overview of mHC

Manifold-Constrained Hyper-Connections (mHC) 是 DeepSeek-AI 在 2025 年 12 月 31 日发表的研究论文 (arXiv:2512.24880) 中提出的一种新型神经网络架构创新。它代表了 Large Language Models (LLMs) 及其他深度神经网络中 Residual Connection 设计的重大进展,旨在提高模型容量扩展时的训练稳定性、Scalability 和效率。

mHC 基于近期提出的 Hyper-Connections (HC) 范式。HC 通过将 Residual Stream 拓宽为多个并行“通道”(使用 Expansion Factor,例如 n=4)并在这些通道之间引入可学习的 Mixing Matrices,扩展了传统的 Residual Connection。与标准单流 Residual Connection(如 ResNet 或 Transformers 中所见)相比,这种多样化允许更丰富的信息流和更好的性能。

然而,无约束的 HC 会引入关键问题:

mHC 通过将 Residual Mixing Matrices 约束在特定的数学流形(Manifold)上——具体为双双随机矩阵(Doubly Stochastic Matrices)的 Birkhoff Polytope——来解决这些问题。这是通过使用 Sinkhorn-Knopp Algorithm 进行投影实现的。

Key Mechanisms in mHC

Empirical Results

DeepSeek 研究人员在 3B、9B 和 27B 参数规模的模型上测试了 mHC:

Significance

mHC 为 LLMs 引入了一个新的“缩放旋钮”:在不通过单纯增加模型宽度/深度带来不稳定性或全额计算成本的情况下,富化 Residual Topology(更宽、混合的流)。它强调了架构中的拓扑设计,可能会影响未来的 Foundational Models。作为 HC 的灵活扩展,它支持具有卓越稳定性的更深/更宽的模型,对于资源受限的训练(例如在硬件出口限制下)特别有价值。

这项由 DeepSeek 创始人梁文锋共同署名的工作,标志着该公司继 DeepSeek-V3 和 R1 等突破后的持续创新。它可能成为即将推出的模型(可能是 V4 或 R2 变体)的基础。

References:


Back

x-ai/grok-4.1-fast

Donate