GPT-5深度实测| 挤牙膏、低情商,但编程效果起飞

全球期待中,GPT-5终于发了。

一句话总结:功能大而全、准确率直线提升,但口碑冰火两重天,OpenAI变得越来越像挤牙膏圣手英特尔了

能力上,GPT-5:

  • 集成 GPT 数字系列与 o系列推理模型,实现了统一架构;
  • 提升了多模态能力,支持文本、图像、音频、视频输入输出,并拥有极大上下文窗口;
  • 强化了代码生成、数学推理、健康咨询与写作能力,减少幻觉率,准确度显著提升。其中,gpt-5-main的事实错误比GPT-4o减少44%gpt-5-thinking的事实错误比OpenAI o3减少78%

能力很亮眼,但这次GPT-5 发布会现场,也被很多人吐槽是草台班子山寨发布会,比如可视化图表中,52.8>69.1=30.8

再比如,发布会现场,GPT-5解释了飞机机翼升力来源是伯努利效应,不过这个说法,其实恰恰是流体力学领域最经典的谬误。但就是因为这个说法在公域互联网上被反复讲了足够多次,在GPT-5的认知中,这就成为了事实。

也就是说,与其说进步的来源是模型掌握了智慧,不如说是一只鹦鹉看完了互联网的公开信息

尽管吐槽声一片,但实际效果来看,GPT-5一口气刷新了 25 个榜单成绩单,从数学到代码修复到多模态,到医学,再到跨学科,准确率全部大有提升。

(尽管,准确率与创造力往往是相悖的,这次更新很多人反馈模型的理工科能力大大提升;但是语文能力直线下滑,让很多喜欢和GPT对话聊诗词歌赋、聊人生理想,聊文学艺术的人很不爽。)

此外,经过实测之后,我们发现,这次升级,对做RAG和Agent的朋友们来说,好日子真的来了!

首先就是价格降了,降到很多人敢去尝试用GPT-5做agent了。其API调用价格,每百万token输入价格降至1.25美元,输出也同样降到了10美元。

其次,上下文长度增加了,目前GPT-5版本的上下文拓展到了400k,可以支撑一些复杂agent系统的上下文传递了。(o3、4o是128k上下文)

与此同时,模型幻觉大大降低之后,agent整体的执行路径的可靠性有了提升。GPT‑5 提升了工具调用准确性与稳定性,支持多步链式工具调用,具备高效的 agentic(代理任务)处理能力 ,在指令遵循和agent工具使用的基准测试上表现优异。而这也意味着,GPT‑5 更善于借助多种工具来处理复杂、非标准的任务。

以下是我们的实测结果(本文仅做一些基础能力测试,agent搭建,敬请期待沟后续更多深度实测):

01

模型基础信息

  • gpt-5:是主力模型,长链推理+全模态
  • gpt-5-chat:等同于gpt-5,用在Chatgpt中对话中使用
  • gpt-5-mini:成本降低了60%,但是保留了90%的编程性能
  • gpt-5-nano:端侧离线 32 K,延迟 <40 ms

02

编程能力测试

  • 一道比较简单的题,用户随意上传一张图片,这张图片能够根据用户的鼠标进行挪动。思考9秒之后,很快完成任务。让我对接下来的测试充满期待

  • 再来测试一个经典的题目:多边形与小球碰撞检查,思考13秒后,开始写代码。第一次写出来的代码,基本上该有的功能(旋转速度、弹性、小球个数等)都有,但是存在bug,run不了,好在页面给出了“Fix bug”这个按钮,我们点击这个按钮,让它继续思考修改代码。

在修复了之前bug,能够展示之后,继而发现新的问题,这个六边形里没有小球

从上面的测试来看,GPT-5在UI设计以及细节考虑上比较齐全的,交互也不错,而且在出现bug时能够提示,这是让人比较惊喜的地方。但是生成的代码,还是有缺陷,甚至出现了没有小球的情况,离最后run起来还是有差距。

03

推理能力测试

题目是这样的:

一个商店摆列着下面的物品:

1. 物品根据颜色从深到浅,从左到右摆放着,依次是:黑色,紫色,蓝色,绿色,黄色,红色,白色

2. 物品有:草莓,菠萝,保温杯,鲜花,信封,儿童滑板,连衣裙

3. 草莓是红色的5$,菠萝是黄色的3$,鲜花是紫色的15$

4. 菠萝的左边第一个是儿童滑板,草莓右边第一个是连衣裙,鲜花的右边第一个是信封

5. 保温杯的颜色最深,它比鲜花便宜5$

6. 信封最便宜只要1$,连衣裙最贵要30$,儿童滑板比连衣裙便宜10$

请问蓝色的物品是什么?它的价格是多少?

这是一道比较复杂的推理题,普通人都需要一定时间才能思考出来,而GPT-5仅在9秒内就给出了正确答案。从回答结果,可以看出它条理清晰,这进一步说明其具备非常强大的推理能力。

04

写作能力测试

之前,我经常为如何创造一个图文并茂的推文而头疼,今天我们让GPT-5代劳:

让GPT-5根据Milvus2.6引入的多语言分析器功能的博客,生成一篇LinkedIn图文并茂的推文

从返回结果来看,其逻辑清晰,把要点也都罗列出来了,但是缺少了一些烟火气,不够吸引人,中规中矩,而且冗长。所以说GPT-5的写作能力还需要修炼。不过其生成的配图,确实非常清晰而且符合zilliz的科技风,值得点赞!

05

GPT-5和mcp-server-milvus结合,效果起飞

这次GPT-5发布,上下文长度变长,工具调用能力增加后,也有很多人表示,那以后是否不需要向量数据库来补充上下文,或者也不需要专门的agent或者RAG了?

答案是否定的,一方面,multi-agent成为长期趋势,而这一系统对上下文长度的需求往往是永无止境的;与此同时,我们对私有非结构化数据的管理,也永远需要向量数据库来把好最后一道安全关。

那么,如何在真正生产中使用GPT-5和Milvus呢?这里推荐使用我们的MCP工具:mcp-server-milvus

(github链接:
https://github.com/zilliztech/mcp-server-milvus 期待你的⭐️⭐️)

这个MCP服务器提供了一个标准化的接口,能够通过Claude,Cursor等LLM应用直接连接和操作Milvus向量数据库,我们一共提供了11个工具,包含实现向量搜索、全文搜索、数据管理等功能。简单来说,它就是LLM应用与Milvus数据库之间的桥梁,让AI助手可以直接查询和管理向量数据库。

以Cursor为例,我们配置好mcp.json文件后,就可以使用了

{

  "mcpServers": {

    "milvus": {

      "command": "/PATH/TO/uv",

      "args": [

        "--directory",

        "/path/to/mcp-server-milvus/src/mcp_server_milvus",

        "run",

        "server.py",

        "--milvus-uri",

        "http://127.0.0.1:19530"

      ]

    }

  }

}

测试1:当前我的数据库中有哪些collections?

GPT-5思考了3秒之后,非常准确地调用了工具milvus_list_collections,并且列出了我数据库中的collections

测试2:找到福尔摩斯探案集这本书,然后告诉我这本书一共讲了几个故事?

可以看到一个完整的调用李娜,它依次调用4个工具,最终回答了这个问题

milvus_list_databases,列出当前使用的实例

milvus_list_collections,列出当前所有collections

milvus_query,查找到相关的表

milvus_text_search,查找相关文字

这里展示了GPT-5卓越的工具调用能力,它能够自主且智能地协调和执行多种复杂工具,从而提供更加准确的答案。

尾声

实话实说,看完OpenAI的这次发布会又实测之后,我的个人直观感受是:OpenAI挤牙膏的功力,正在向硅谷另一大厂英特尔看齐。

只不过,英特尔从风头无两到牙膏圣手,走了几十年,OpenAI却只用了三年不到。

相比此前几次的颠覆式创新,此次GPT-5的升级很容易给人一种把历代模型能力融合,然后修修补补的感觉。当然,这与大模型如今正在面临的架构创新瓶颈,以及数据质量瓶颈脱不开关系。

但春秋责备贤者,对GPT-5的小吐槽,其实只是源于对OpenAI的超高期待。

更何况换个角度看,准确率提升、价格下降、多模态融合,谁说就不是创新了呢?这对于做agent、RAG的开发者们来说,最好的日子,才刚刚开始。

举报