DeepSeek发布全新记忆架构 直指当前大模型效率低下

前沿科技
分享至
评论

国内AI公司深度求索(DeepSeek)在技术架构层面抛出重磅创新。其于近日开源全新架构模块“Engram”,并同步发布技术论文。该公司创始人梁文锋作为作者之一,指出当前主流大型在处理依赖固定知识的“查表”任务及复杂推理时存在“结构性低效”

DeepSeek发布全新记忆架构 直指当前大模型效率低下

这项与北京大学共同完成的研究提出“条件记忆”概念。其核心在于引入一个可扩展的查找式记忆结构。根据论文,该模块通过对输入令牌序列进行N-Gram切片,并通过多哈希映射到静态记忆表,实现常数时间检索。这种查找成本与模型规模无关,即使记忆表扩展至百亿参数,检索开销仍保持稳定

技术分析指出,传统Transformer架构(包括稠密与混合专家模型)需通过多层计算重建静态知识模式,消耗大量算力。Engram模块通常被置于模型底层,承担“模式重建”职责,从而释放深层网络的算力专注于复杂推理。在参数规模为270亿的实验中,将部分混合专家参数重新分配给Engram记忆表,在同等参数与算力条件下,模型在知识、推理、代码及数学任务上均取得显著提升

行业开发者讨论认为,该机制减少了模型底层对固定模式的重建需求,使模型在推理上表现得更为“深入”。另有观点指出,此架构可使大规模静态记忆脱离GPU存储限制,通过确定性寻址利用主机内存预取,保持推理阶段低开销。多方推测,Engram很可能成为DeepSeek下一代模型“V4”的核心技术基础。

此次开源动作被视作对现有大模型主流设计路径的一次重要挑战,为提升模型效率提供了新的技术轴心。

THE END

数码评测