DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。
2月21日,中国AI初创公司DeepSeek公开表示将加大开源AI模型的力度,于下周起再开放5个代码存储库,称此举是“小而真诚的进步”,并将完全透明地分享技术。DeepSeek在社交媒体平台X上表示:“没有象牙塔——只有纯粹的车库能量和社区驱动的创新。
“DeepSeek R1和Kimi K1.5都指向了ORM based RL,而Kimi MoBA和DeepSeek NSA再一次都指向了可以反向传递的learned sparse attention。
2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。
北京时间2月18日,在马斯克还在庆祝Grok 3模型正式发布的时候,DeepSeek官方在社交平台X上发布了一篇纯技术论文,主要是关于原生稀疏注意力,直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。
DeepSeek 发布的论文,标题名为:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。