清华稀疏attention

资讯

arXiv爆款：想了解Attention就看它！清华计图胡事民团队出品
清华计图胡事民团队的这篇注意力机制的综述火了!在上周的arXiv上，这是最热的一篇论文:而这篇论文引用近200篇内容，对计算机视觉领域中的各种注意力机制进行了全面回顾。
量子位
22评论
4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破模型推理门槛
DeepSeek-R1火遍海内外，但推理服务器频频宕机，专享版按GPU小时计费的天价成本更让中小团队望而却步。而市面上所谓“本地部署”方案，多为参数量缩水90%的蒸馏版，背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。
量子位
161评论
DeepSeek加码开源，清华浙大缘何成中国AI关键力量
2月21日，中国AI初创公司DeepSeek公开表示将加大开源AI模型的力度，于下周起再开放5个代码存储库，称此举是“小而真诚的进步”，并将完全透明地分享技术。DeepSeek在社交媒体平台X上表示：“没有象牙塔——只有纯粹的车库能量和社区驱动的创新。
第一财经
13评论
OpenAI继续“暴力计算” DeepSeek、月之暗面拿出算法“手术刀”
“DeepSeek R1和Kimi K1.5都指向了ORM based RL，而Kimi MoBA和DeepSeek NSA再一次都指向了可以反向传递的learned sparse attention。
中国经营报
31评论
从特斯拉林某某事件看Transformer
根据台湾《联合报》及《环球报》消息，7月22日上午，台湾艺人林某某驾驶特斯拉行驶时发生交通事故，引起了网友关注。
陆家嘴金融网
2评论
DeepSeek发布最新技术论文，梁文锋是共创之一
2月18日，DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse Attention，原生稀疏注意力），官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。
第一财经
27评论
梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么
2月18日，在大洋彼岸的马斯克秀出最新大模型Grok 3当天，国产AI公司深度求索（DeepSeek）最新一篇论文引发关注，创始人梁文锋在署名之列，并2月16日提交到预印本平台arxiv。
澎湃新闻
3评论
梁文锋、杨植麟论文“撞车”，直指算法优化，挑战ChatGPT核心机制！风投公司RAI Digital联合创始人：AI无需读完整本书，将更快、更高效
北京时间2月18日，在马斯克还在庆祝Grok 3模型正式发布的时候，DeepSeek官方在社交平台X上发布了一篇纯技术论文，主要是关于原生稀疏注意力，直指ChatGPT等顶尖大模型背后的Transformer架构最核心的注意力机制。
每日经济新闻
124评论
杨植麟和梁文锋，论文撞车了
DeepSeek 发布的论文，标题名为:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。
硅星人
17评论

问答

清华大学连续上热搜，这所顶尖学府做错了什么遭到国人的不满？
头条问答

在线举报