全球期待中，GPT-5终于发了。

一句话总结：功能大而全、准确率直线提升，但口碑冰火两重天，OpenAI变得越来越像挤牙膏圣手英特尔了。

能力上，GPT-5：

集成 GPT 数字系列与 o系列推理模型，实现了统一架构；
提升了多模态能力，支持文本、图像、音频、视频输入输出，并拥有极大上下文窗口；
强化了代码生成、数学推理、健康咨询与写作能力，减少幻觉率，准确度显著提升。其中，gpt-5-main的事实错误比GPT-4o减少44%gpt-5-thinking的事实错误比OpenAI o3减少78%

能力很亮眼，但这次GPT-5 发布会现场，也被很多人吐槽是草台班子山寨发布会，比如可视化图表中，52.8>69.1=30.8

再比如，发布会现场，GPT-5解释了飞机机翼升力来源是伯努利效应，不过这个说法，其实恰恰是流体力学领域最经典的谬误。但就是因为这个说法在公域互联网上被反复讲了足够多次，在GPT-5的认知中，这就成为了事实。

也就是说，与其说进步的来源是模型掌握了智慧，不如说是一只鹦鹉看完了互联网的公开信息。

尽管吐槽声一片，但实际效果来看，GPT-5一口气刷新了 25 个榜单成绩单，从数学到代码修复到多模态，到医学，再到跨学科，准确率全部大有提升。

（尽管，准确率与创造力往往是相悖的，这次更新很多人反馈模型的理工科能力大大提升；但是语文能力直线下滑，让很多喜欢和GPT对话聊诗词歌赋、聊人生理想，聊文学艺术的人很不爽。）

此外，经过实测之后，我们发现，这次升级，对做RAG和Agent的朋友们来说，好日子真的来了！

首先就是价格降了，降到很多人敢去尝试用GPT-5做agent了。其API调用价格，每百万token输入价格降至1.25美元，输出也同样降到了10美元。

其次，上下文长度增加了，目前GPT-5版本的上下文拓展到了400k，可以支撑一些复杂agent系统的上下文传递了。（o3、4o是128k上下文）

与此同时，模型幻觉大大降低之后，agent整体的执行路径的可靠性有了提升。GPT‑5 提升了工具调用准确性与稳定性，支持多步链式工具调用，具备高效的 agentic（代理任务）处理能力，在指令遵循和agent工具使用的基准测试上表现优异。而这也意味着，GPT‑5 更善于借助多种工具来处理复杂、非标准的任务。

以下是我们的实测结果（本文仅做一些基础能力测试，agent搭建，敬请期待沟后续更多深度实测）：

01 模型基础信息

gpt-5：是主力模型，长链推理+全模态
gpt-5-chat：等同于gpt-5，用在Chatgpt中对话中使用
gpt-5-mini：成本降低了60%，但是保留了90%的编程性能
gpt-5-nano：端侧离线 32 K，延迟 <40 ms

02 编程能力测试

一道比较简单的题，用户随意上传一张图片，这张图片能够根据用户的鼠标进行挪动。思考9秒之后，很快完成任务。让我对接下来的测试充满期待

再来测试一个经典的题目：多边形与小球碰撞检查，思考13秒后，开始写代码。第一次写出来的代码，基本上该有的功能（旋转速度、弹性、小球个数等）都有，但是存在bug，run不了，好在页面给出了“Fix bug”这个按钮，我们点击这个按钮，让它继续思考修改代码。

在修复了之前bug，能够展示之后，继而发现新的问题，这个六边形里没有小球！

从上面的测试来看，GPT-5在UI设计以及细节考虑上比较齐全的，交互也不错，而且在出现bug时能够提示，这是让人比较惊喜的地方。但是生成的代码，还是有缺陷，甚至出现了没有小球的情况，离最后run起来还是有差距。

03 推理能力测试

题目是这样的：

一个商店摆列着下面的物品：

1. 物品根据颜色从深到浅，从左到右摆放着，依次是：黑色，紫色，蓝色，绿色，黄色，红色，白色

2. 物品有：草莓，菠萝，保温杯，鲜花，信封，儿童滑板，连衣裙

3. 草莓是红色的5$，菠萝是黄色的3$，鲜花是紫色的15$

4. 菠萝的左边第一个是儿童滑板，草莓右边第一个是连衣裙，鲜花的右边第一个是信封

5. 保温杯的颜色最深，它比鲜花便宜5$

6. 信封最便宜只要1$，连衣裙最贵要30$，儿童滑板比连衣裙便宜10$

请问蓝色的物品是什么？它的价格是多少？

这是一道比较复杂的推理题，普通人都需要一定时间才能思考出来，而GPT-5仅在9秒内就给出了正确答案。从回答结果，可以看出它条理清晰，这进一步说明其具备非常强大的推理能力。

04 写作能力测试

之前，我经常为如何创造一个图文并茂的推文而头疼，今天我们让GPT-5代劳：

让GPT-5根据Milvus2.6引入的多语言分析器功能的博客，生成一篇LinkedIn图文并茂的推文

从返回结果来看，其逻辑清晰，把要点也都罗列出来了，但是缺少了一些烟火气，不够吸引人，中规中矩，而且冗长。所以说GPT-5的写作能力还需要修炼。不过其生成的配图，确实非常清晰而且符合zilliz的科技风，值得点赞！

05 GPT-5和mcp-server-milvus结合，效果起飞

这次GPT-5发布，上下文长度变长，工具调用能力增加后，也有很多人表示，那以后是否不需要向量数据库来补充上下文，或者也不需要专门的agent或者RAG了？

答案是否定的，一方面，multi-agent成为长期趋势，而这一系统对上下文长度的需求往往是永无止境的；与此同时，我们对私有非结构化数据的管理，也永远需要向量数据库来把好最后一道安全关。

那么，如何在真正生产中使用GPT-5和Milvus呢？这里推荐使用我们的MCP工具：mcp-server-milvus

（github链接：
https://github.com/zilliztech/mcp-server-milvus 期待你的⭐️⭐️)

这个MCP服务器提供了一个标准化的接口，能够通过Claude，Cursor等LLM应用直接连接和操作Milvus向量数据库，我们一共提供了11个工具，包含实现向量搜索、全文搜索、数据管理等功能。简单来说，它就是LLM应用与Milvus数据库之间的桥梁，让AI助手可以直接查询和管理向量数据库。

以Cursor为例，我们配置好mcp.json文件后，就可以使用了

{

  "mcpServers": {

    "milvus": {

      "command": "/PATH/TO/uv",

      "args": [

        "--directory",

        "/path/to/mcp-server-milvus/src/mcp_server_milvus",

        "run",

        "server.py",

        "--milvus-uri",

        "http://127.0.0.1:19530"

      ]

    }

  }

}

测试1：当前我的数据库中有哪些collections?

GPT-5思考了3秒之后，非常准确地调用了工具milvus_list_collections，并且列出了我数据库中的collections

测试2：找到福尔摩斯探案集这本书，然后告诉我这本书一共讲了几个故事？

可以看到一个完整的调用李娜，它依次调用4个工具，最终回答了这个问题

milvus_list_databases，列出当前使用的实例

milvus_list_collections，列出当前所有collections

milvus_query，查找到相关的表

milvus_text_search，查找相关文字

这里展示了GPT-5卓越的工具调用能力，它能够自主且智能地协调和执行多种复杂工具，从而提供更加准确的答案。

尾声

实话实说，看完OpenAI的这次发布会又实测之后，我的个人直观感受是：OpenAI挤牙膏的功力，正在向硅谷另一大厂英特尔看齐。

只不过，英特尔从风头无两到牙膏圣手，走了几十年，OpenAI却只用了三年不到。

相比此前几次的颠覆式创新，此次GPT-5的升级很容易给人一种把历代模型能力融合，然后修修补补的感觉。当然，这与大模型如今正在面临的架构创新瓶颈，以及数据质量瓶颈脱不开关系。

但春秋责备贤者，对GPT-5的小吐槽，其实只是源于对OpenAI的超高期待。

更何况换个角度看，准确率提升、价格下降、多模态融合，谁说就不是创新了呢？这对于做agent、RAG的开发者们来说，最好的日子，才刚刚开始。

今日凌晨一点,OpenAI的首席执行官山姆·奥特曼线上发布了号称史上“博士级”最强模型 GPT-5,面向所有的个人用户...

GPT-5更是断崖式领先。同时在可靠性和精准性上,GPT-5的提升也相当明显。更直观的效果来看现场demo展示。先来看其...

信息美国OpenAI发布GPT-5,准确性、速度、推理能力实现全... 效果和安全性,目前正准备在美国进行大规模II期试验。如...

GPT-5深度实测| 挤牙膏、低情商，但编程效果起飞

01

模型基础信息

02

编程能力测试

03

推理能力测试

04

写作能力测试

05

GPT-5和mcp-server-milvus结合，效果起飞

尾声

头条热榜

精彩视频