Gemini 2.5 Pro登顶三冠王!AI最强编程屠榜,全面碾压Claude 3.7

编辑:犀牛 桃子

【新智元导读】谷歌Gemini 2.5 Pro(I/O版)横空出世,强势登顶LMAreana,斩获文本、视觉、编码三连冠,甚至编程能力全面碾压Claude 3.7,地表最强编码模型诞生。


AI编程王座,一夜易主。

昨晚,谷歌放出全新升级的Gemini 2.5 Pro Preview(I/O版),一举拿下三连冠,登顶LMeana。

它成为首个横扫文本、视觉、WebDev Arena基准的SOTA模型,编码性能碾压Claude 3.7 Sonnet。

不论是在代码转换、代码编辑,甚至是开发复杂的智能体工作流中,Gemini 2.5 Pro都能得心应手。

随手画个草图,Gemini 2.5 Pro即可将其变成一个绘画小程序。

只需一个提示,它就能将自然图像,转化为代码来表示独特的图案。

一句话用你的狗做一个小游戏。

Hassabis自豪地表示,只是随随便便提升了147分ELO,没什么大不了的。

谷歌首席科学家、Gemini的负责人Jeff Dean也连发数条推文来介绍更新后的Gemini 2.5 Pro,足见对其性能的信心。

左右滑动查看

开发者现在可以通过Google AI Studio和Vertex AI在Gemini API中开始使用更新后的Gemini 2.5 Pro进行开发。新模型也已经在Gemini App正式上线,支持Canvas等功能。

任何人都能通过单个提示来编写代码和构建交互式Web应用。


史上最强编程模型屠榜

Gemini 2.5 Pro Preview(I/O版)抢先体验版,是对2.5 Pro的全新升级,特别在编程方面有了大幅提升,尤其擅长打造引人入胜的互动网页应用。

在视觉基准测试中,Gemini 2.5 Pro Preview凭借巨大优势,领先GPT-4o、o3等模型。

在WebDev上,它成为首个超越Claude的编程模型,甚至连最新发布的GPT-4.1都不及Gemini 2.5 Pro。

从基准测试上看,新版Gemini 2.5 Pro相较于原版得到了全方位的提升。

谷歌在官博上声称,本来计划在谷歌I/O上发布这个更新,但看到大家对这款模型的热情高涨,所以决定提前放出,让所有人能尽早开发使用。

此次更新,除了以UI为中心的开发外,还扩展到了代码转换、代码编辑和开发复杂的AI智能体工作流。

在博客中,谷歌随手放了个小实例:一句话将图片上树叶的行为用代码表达出来。

更新后的Gemini 2.5 Pro在视频理解方面也拥有顶尖的性能,在VideoMME基准测试中的得分为84.8%,可以根据单条YouTube视频生成一个交互式学习网站。

谷歌在博客中还同时给出了与更新前Gemini 2.5 Pro之间的对比视频。

对于此次更新,AI编程工具Cursor CEO Michael Truell评价道:「我们对最新的Gemini 2.5 Pro感到非常兴奋,它在原本就很强大的编码能力上进一步提升。我们在内部观察到,新模型在调用工具时的失败率显著降低,这一改进相信会让用户觉得2.5 Pro在Cursor中的表现比以前更加出色。」


「氛围编程」王者,全网玩疯

Gemini 2.5 Pro Preview一经发布,热度直接爆表。开发者们借助其强大编码能力,构建出有趣的demo了。

谷歌大佬晒demo


谷歌研究员JB Alayrac表示,Gemini 2.5 Pro最新升级的代码能力,简直绝了。

更惊艳的是,将其编程实力和顶尖多模态视频理解能力相结合,直接把YouTube视频转录成p5.js动画。

在谷歌DeepMind研究员Ali Eslami发布的另一个演示中,用Gemini 2.5 Pro「氛围编程」芝加哥艺术学院收藏品的3D导览。

Tim Bettridg用Canvas一次性开发了图书推荐应用,只需随手拍一张书架照片。

Patrick Loeber分享了,它还能制作一个界面更为复杂美观的理财APP。

研究员Megan Ben Dor Ruthven用Gemini 2.5 Pro制作了游戏卡片化学元素周期互动表。

开发者Chetaslua让Gemini 2.5 Pro制作了一个地球是如何形成的3D演示网站。

在测试过程中,o3无法编译,Claude 3.7蓝屏崩溃,只有Gemini 2.5 Pro才是当之无愧的王者。

网友Arthur Lee只用调整一次,就生成了一个3D太阳系,非常漂亮,而且能够随意交互。

Gemini 2.5 Pro还可以进行实时模拟。

物理模拟测试中,Gemini 2.5 Pro模拟桶中来回晃动的水,一举击败了Claude 3.7 Sonnet、o3。

一系列演示,切切实实展示了Gemini 2.5 Pro强大编程能力。

AI大佬Andrew Curran表示,「Gemini取代Gemini是一个信号,头把交椅仍会易主,但巨龙已经苏醒」。

举报

猜你喜欢

通过大模型编程排行榜看看AI编程的表现,能取代程序员吗
02:28
通过大模型编程排行榜看看AI编程的表现,能取代程序员吗
昨天直播小测结果:已成功安装vLLM和LLaMA-Factory,并能微调14B原版大模型,2个框架都是采用拉取源码编译安装,但不能按官方安装步骤,需要适当调整,因为对各项依赖都有版本要求,所以小白勿碰! #人工智能 #ai #显卡
00:34
昨天直播小测结果:已成功安装vLLM和LLaMA-Factory,并能微调14B原版大模型,2个框架都是采用拉取源码编译安装,但不能按官方安装步骤,需要适当调整,因为对各项依赖都有版本要求,所以小白勿碰! #人工智能 #ai #显卡
比GPU快几百倍!全球首发!曦智科技首发新一代光电混合计算卡 曦智科技震撼发布全新光电混合计算卡“曦智天枢”,将光电混合计算引入复杂商业化模型,这将是算力领域的一次革命吗?
曦智科技,全球光电混合算力领航者,在集成光子领域屡创佳绩,手握光子矩阵计算、片上光网络、片间光网络三大核心技术,光子计算、光子网络两大产品线熠熠生辉。去年底,他们首次亮相光电混合计算产品,震惊业界,其速度在特定算法下较主流GPU快数百倍。
今天,曦智天枢横空出世,光芯片与电芯片强强联手,3D先进封装技术加持,可编程性再升级。与前代相比,光电集成度、光子矩阵规模、精度均有显著提升。它不仅擅长科学计算,如伊辛算法,更在商业算法应用,如ResNet50上大放异彩,光计算优势与产品通用性并存。
天枢的非相干架构,让系统扩展无忧,抗干扰能力强,计算精度更高。核心处理器光学处理单元、电学专用集成电路协同作战,3D TSV硅通孔、FlipChip倒装芯片封装技术助力,延迟大降,信号传输更稳。光芯片面积扩大三倍,器件数量超四万,集成度飞跃。
最大支持128x128矩阵规模,运算力、灵活性双提升。用户还可通过API自由配置计算矩阵系数,适应性、优化空间无限。光子计算,被动运算,光子矩阵中任务即完成,颠覆传统CMOS电子芯片逻辑。性能提升看矩阵规模、主频速率、波长数量,不依赖晶体管密度及芯片制程。
曦智科技首提等效光算力标准,综合算力评价更贴合光计算原理。软件方面,天枢搭载曦智光电混合计算软件栈,算子库丰富,支持CV类、LLM类模型,非AI算子也不在话下。曦智编译器助力用户灵活构建高效应用模型,自定义算子,OpenCL C/C++语言编译优化,算法开发更自由。软件栈与主流框架深度集成,加速、验证、推理,一应俱全。
你觉得光电混合计算将如何改变我们的未来?快来评论区分享你的想法吧!#曦智科技 #芯片 #芯片封装 #半导体 #真空共晶炉
02:28
比GPU快几百倍!全球首发!曦智科技首发新一代光电混合计算卡 曦智科技震撼发布全新光电混合计算卡“曦智天枢”,将光电混合计算引入复杂商业化模型,这将是算力领域的一次革命吗? 曦智科技,全球光电混合算力领航者,在集成光子领域屡创佳绩,手握光子矩阵计算、片上光网络、片间光网络三大核心技术,光子计算、光子网络两大产品线熠熠生辉。去年底,他们首次亮相光电混合计算产品,震惊业界,其速度在特定算法下较主流GPU快数百倍。 今天,曦智天枢横空出世,光芯片与电芯片强强联手,3D先进封装技术加持,可编程性再升级。与前代相比,光电集成度、光子矩阵规模、精度均有显著提升。它不仅擅长科学计算,如伊辛算法,更在商业算法应用,如ResNet50上大放异彩,光计算优势与产品通用性并存。 天枢的非相干架构,让系统扩展无忧,抗干扰能力强,计算精度更高。核心处理器光学处理单元、电学专用集成电路协同作战,3D TSV硅通孔、FlipChip倒装芯片封装技术助力,延迟大降,信号传输更稳。光芯片面积扩大三倍,器件数量超四万,集成度飞跃。 最大支持128x128矩阵规模,运算力、灵活性双提升。用户还可通过API自由配置计算矩阵系数,适应性、优化空间无限。光子计算,被动运算,光子矩阵中任务即完成,颠覆传统CMOS电子芯片逻辑。性能提升看矩阵规模、主频速率、波长数量,不依赖晶体管密度及芯片制程。 曦智科技首提等效光算力标准,综合算力评价更贴合光计算原理。软件方面,天枢搭载曦智光电混合计算软件栈,算子库丰富,支持CV类、LLM类模型,非AI算子也不在话下。曦智编译器助力用户灵活构建高效应用模型,自定义算子,OpenCL C/C++语言编译优化,算法开发更自由。软件栈与主流框架深度集成,加速、验证、推理,一应俱全。 你觉得光电混合计算将如何改变我们的未来?快来评论区分享你的想法吧!#曦智科技 #芯片 #芯片封装 #半导体 #真空共晶炉