模型架构详细信息

资讯

阿里推出下一代模型架构；宇树王兴兴谈后悔的事丨新鲜早科技
21世纪经济报道新质生产力研究院综合报道早上好，新的一天又开始了。在过去的24小时内，科技行业发生了哪些有意思的事情？来跟21tech一起看看吧。
21世纪经济报道
字节豆包大模型团队推出稀疏模型架构UltraMem
来源：环球网【环球网科技综合报道】2月13日消息，字节跳动豆包大模型Foundation团队近日宣布了一项重要创新成果——UltraMem稀疏模型架构。这一架构通过将计算和参数解耦，在保证模型效果的同时，有效解决了推理过程中的访存问题，为人工智能领域带来了新的突破。
环球网
1评论
昇腾原生，华为发布准万亿模型Pangu Ultra MoE模型架构和训练细节
近日，华为在MoE模型训练领域再进一步，重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。
每日经济新闻
上海大模型公司提出新架构，传统Transformer架构不再是唯一选择｜产业创新动态
转载自：新民科学咖啡馆Science & Technology上海人工智能科技公司MiniMax日前发布并开源新一代01系列模型，包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。
上观新闻
26评论
训练成本大降超九成！阿里开源下一代基础模型架构，引入混合注意力机制
阿里开源全新架构Qwen3-Next，80B参数新模型只需激活3B即可实现旗舰性能。
澎湃新闻
宇树科技官宣！重磅模型架构开源
【大河财立方消息】9月15日，宇树科技宣布开源UnifoLM-WMA-0——跨多类机器人本体的开源世界模型-动作架构。宇树科技介绍，UnifoLM-WMA-0专为通用机器人学习而设计，其核心在于一个可以理解“机器人与环境交互”物理规律的世界模型。
大河财立方
1评论
GitHub版DeepResearch来了！覆盖所有代码库，模型架构可视化
DeepWiki，覆盖全球所有GitHub存储库，无需注册即可食用。最简单的触发模式，就是只需要把链接中「github」改为「deepwiki」字样，就可以生成项目专属的wiki百科页面。
量子位
12评论
中国团队提出SRDA，一种专为AI大模型训推设计的下一代计算架构
近期DeepSeek团队在其新论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》中从芯片用户角度对未来AI硬件提出了一些期待，其中很多点和SRDA架构的思路不谋而合，也让我们更有信心SRDA架构有机会成为下一代针对AI大模型场景的更优计算架构。
量子位
4评论
阿里发布下一代基础模型架构Qwen3-Next
据通义千问Qwen官微消息，阿里发布了下一代基础模型架构Qwen3-Next，并开源了基于该架构的Qwen3-Next-80B-A3B系列模型。
第一财经
2评论
宇树科技开源UnifoLM-WMA-0模型架构
来源：环球网【环球网科技综合报道】9月15日，宇树科技宣布开源 UnifoLM-WMA-0，即宇树科技旗下跨多类机器人本体的开源世界模型-动作架构，据宇树科技介绍，UnifoLM-WMA-0是专为通用机器人学习量身打造的。
环球网
硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构
DeepSeek R1 在 2025 年 1 月发布时引起了巨大反响。它可能是目前这一代中最大的 LLM，在不考虑尚未发布的 Llama 4 Behemoth、闭源模型以及架构不同的 Google 1.6 万亿 Switch Transformer前提下，Kimi K2 几乎是无出其右的。
机器之心Pro
9评论
华为盘古昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一
同时，基于 MoGE 架构构建的盘古 Pro MoE 大模型在昇腾 300I Duo 和 800I A2 可实现更优的专家负载分布与计算效率。
华尔街见闻
1评论
一篇文章系统看懂大模型
上周在分享《我的AI产品经理转型之路》这篇文章的时候，就预告了一下，三白将输出一篇文章帮助大家系统的学习和了解大模型，今天来交稿了;
人人都是产品经理
10评论

加载更多

在线举报