DeepSeek-V3回顾性论文发布

资讯

梁文锋署名，DeepSeek-V3回顾性论文发布
近日DeepSeek创始人梁文锋等人发表了一篇名为《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for Al Architectures（深入了解DeepSeek-V3：人工智
潇湘晨报·晨视频
梁文锋等发表DeepSeek V3回顾性论文
【梁文锋等发表DeepSeek V3回顾性论文】《科创板日报》16日讯，近日DeepSeek创始人梁文锋等人发表了一篇名为《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for
财联社
2评论
AI早报 | 梁文锋等发表DeepSeek V3回顾性论文；MiniMax最新语音大模型超OpenAI
OpenAI拟协助阿联酋建设全球最大数据中心之一5月17日消息，OpenAI正计划协助阿联酋开发一个超大规模数据中心，该项目有望成为全球最大数据中心之一。据知情人士透露，这家ChatGPT制造商将成为阿布扎比近期公布的5吉瓦数据中心园区的主要锚定租户。
界面新闻
2评论
首次披露！DeepSeek V3 发布软硬一体协同训练论文，公开「降成本」秘诀
这种不匹配导致了严重的内存瓶颈，特别是在以注意力机制为核心的架构中，内存带宽限制成为性能提升的最大障碍。
AI科技评论
3评论
梁文锋署名，DeepSeek再发论文
近日DeepSeek团队发表新论文论文以DeepSeek-V3为核心案例披露其在AI硬件架构与模型设计方面的关键创新为实现具有成本效益的大规模训练和推理提供思路论文显示DeepSeek创始人兼CEO梁文锋也是参与者之一DeepSeek论文《深入解读 DeepSeek-V3：AI
光明网
22评论
DeepSeek、华为、出口管制以及中美人工智能竞赛的未来
2025年3月7日，美国战略与国际研究中心发布了题为《DeepSeek、华为、出口管制以及中美人工智能竞赛的未来》的报告，报告就DeeepSeek取得的成功，形成了关于DeepSeek、华为、出口管制以及中美人工智能竞赛的未来的判断。
全球技术地图
10评论
梁文锋新论文，DeepSeek降本秘籍公开，突破算力瓶颈有六招
仅在2048块H800 GPU上进行训练，FP8训练的准确率损失小于0.25%，每token的训练成本250 GFLOPS，而405B密集模型的训练成本为2.45 TFLOPS ，KV缓存低至每个token 70 KB…
36氪
4评论
R2来之前，DeepSeek又放了个烟雾弹
不过，一系列前菜已经给R2做足了铺垫。5月14日，一篇DeepSeek V3论文，揭示了梁文峰是如何做到“极致降本”的。
虎嗅APP
119评论
资金加仓人工智能ETF（159819）、科创人工智能ETF（588730），DeepSeek最新论文揭示大模型降本秘诀
近日，DeepSeek发布新论文深入剖析了V3/R1的开发历程，公开了如何在硬件资源紧缺的情况下，通过“软硬一体”的协同设计，将成本降到极致。论文不仅总结了实践经验，还为未来AI硬件与模型协同设计提出了建议。
每日经济新闻
1评论
AI周报｜智能体平台Manus开放注册;梁文锋署名DeepSeek新论文
AI智能体平台Manus开放注册AI智能体平台Manus近日开放注册。根据官方公告，新注册用户每天可免费获得300积分，并额外一次性获得1000积分。Manus提供了每月19美元的基础计划、每月39美元的Plus计划和每月199美元的Pro计划。
第一财经
DeepSeek揭秘如何突破软硬件瓶颈｜科创要闻
人工智能军备竞赛在国内外持续迭代演进。OpenAI、谷歌、微软、阿里巴巴等不断推出新应用，MCP协议、AI编程、具身智能机器人、芯片自研等场景多样拓展。自从年初引起全球震动并激发诸多领域AI变革以来，DeepSeek的一举一动都备受关注，但其最新R2模型千呼万唤仍未推出。
南方周末
4评论
梁文锋署名，最新论文发布
这篇论文深入分析了DeepSeek-V3/R1模型架构及其人工智能基础架构，重点介绍了一些关键创新，如提高内存效率的多头潜意识、优化计算与通信权衡的专家混合架构、释放硬件能力全部潜力的FP8混合精度训练，以及最大限度降低集群级网络开销的多平面网络拓扑结构。
晋江市融媒体中心
2评论

加载更多

在线举报