量化巨头幻方开发的大模型来了!11月2日晚间,幻方宣布,探索AGI(通用人工智能)的新组织“深度求索(DeepSeek)”在成立半年后,发布第一代大模型——开源代码大模型DeepSeek Coder,已经开放内测,免费商用,完全开源。
12月27日,海外社交媒体平台X被来自中国的大模型DeepSeek-V3刷屏了,科技圈惊叹的点在于,这一模型能力对标头部模型,但训练的预算却非常低,“2048个GPU、2个月、近600万美元”,相比之下,GPT-4o等模型的训练成本约为1亿美元,至少在万个GPU量级的计算集群上训练。
1943年,当心理学家W.S.McCulloch和数理逻辑学家W.Pitts,经过反复地推算验证,提出神经网络和数学模型,并接受掌声和鲜花时,他们心中必然有一丝遗憾,因为在晶体管还未发明的年代,纷繁复杂的数学公式无异于纸上谈兵。
今天就要推荐一个基于 GPT-3 构建的工具 adrenaline,可以用来直接修复代码问题,同时告诉你为什么这是一个 bug 的应用,而 ChatGPT 在 GPT-3 面前就是个弟弟,以下是 ChatGPT 告诉我的,它和 GPT-3 的关系,你们感受一下。