中信建投:Coze智能体上线,OpenAI及豆包相继推出最新推理模型

1.字节推出最新通用Agent产品Coze空间,其拥有以下几个特点:1)特定任务训练的专家级agent,2)探索和规划双模式,更好的用户交互,3)网页和代码结果等更好的可视化结果呈现,4)支持MCP等更多工具调用。

2.OpenAI发布两款最新推理模型o3和o4-Mini,o3是其迄今推出的最强大推理模型,在编程、数学、科学、视觉理解等多个领域的均取得了突破性进展。首次实现“图像即推理要素”,展现强大的多模态能力。

3.新发布的o4-mini重构成本效率比,输入定价1.1美元/百万Token,日均调用量达o1的3倍,非STEM任务表现超前代。

4.字节发布最新豆包1.5•深度思考、文生图模型3.0、视觉理解模型。1.5•深度思考模型在推理能力和视觉理解能力领域提升显著;视觉理解模型在视觉定位以及视频解析领域提升显著。

1.1 Coze智能体上线

4月18日,字节跳动旗下产品Coze正式上线新产品Coze空间,是一款基于Coze生态开发的通用Agent产品,支持MCP调用和模型自主规划任务。

扣子空间构建了企业级智能体协作中枢,基于多模态任务编排引擎与动态扩展协议(MCP),实现从意图理解到执行闭环的端到端任务执行框架。其核心功能如下:

1)智能任务执行架构:基于多模态意图理解与分层任务分解算法,系统可自主解析复杂任务需求(如市场分析、数据建模、流程自动化),实现从问题识别到执行闭环的端到端处理,显著提升长周期任务处理效率。以生成旅游规划为例,用户提交任务后,智能体开启自动化搜索相关信息、生成网页以及UI设计,最终生成结果可直接打开链接在网页中查看。

2)垂直领域知识引擎:平台集成多个领域的预训练专家Agent集群,覆盖金融、医疗、法律等核心行业的预训练专家Agent集群,通过领域自适应迁移学习框架(Domain-adaptive TL)深度集成行业知识库与业务规则,为专业场景提供精准决策支持。

3)协作模式灵活调整:支持人机协同双模式:1. 探索模式:AI快速响应,基于已有的知识和算法快速生成回答,响应速度快,满足用户对即时信息的需求;2.规划模式:AI深度思考与执行,会对任务进行更全面、深入的规划,充分考虑任务的各种因素和条件,运用复杂的算法和分析结合可视化任务图谱与实时反馈机制,实现关键节点的人工校验与策略优化。用户既可以选择让 AI Agent 自动处理任务,也能开启规划模式进行人机协作。这种灵活度可以充分结合用户和 AI Agent 的优势,适用于高难度任务场景。

4)动态能力扩展框架:通过模块化扩展协议(MCP)支持多形态能力注入,包括API服务集成、自定义脚本嵌入及第三方工具链对接,有效突破传统AI Agent的功能边界。目前,Coze已经集成高德地图,飞书,图像工具等MCP,即将支持开发者使用Coze开发平台发布MCP至Coze空间,进一步拓展Agent能力边界。

1.2 OpenAI发布最新推理模型o3、o4-Mini

4月17日,OpenAI发布了o3与o4-mini两款新款推理模型。根据OpenAI官网,o3与o4-mini两款多模态模型作为OpenAI旗下o系列推理模型的最新版本,能同时处理文本、图像和音频,并且能作为Agent智能体自主组合并使用ChatGPT内如网络搜索、图像生成、代码解析等工具以及深度思考模式。

自4月17日起,ChatGPT Plus、Pro和Teams用户均可在模型选择器中自由选择o3、o4-mini和o4-mini-high,ChatGPT Enterprise和Edu用户将在一周后获得获得访问权限,免费用户亦能通过Think模式使用o4-mini。

根据OpenAI官网,o3是其迄今推出的最强大推理模型,在编程、数学、科学、视觉理解等多个领域均取得了突破性进展。模型测试结果显示:1)通用知识方面,在不使用外部工具的前提下,o3模型通用知识测试GPQA-Diamond正确率高达83.3%,数学测试AIME 2025正确率高达88.9%(o1为79.2%); 2)代码能力方面,o3的SWE-Bench Verified测试集正确率为69.1%; 3)多模态能力方面,o3的MMMU测试集正确率为82.9%(o1为77.6%),MathVista正确率为87.5%。此外,根据外部专家评估,o3的重大错误率比OpenAI o1降低了20%,在编程、商业/咨询和创意构思等领域表现也很出色。

O4-Mini则在效率与性能间实现平衡,以更小巧的模型实现更高的推理能力,尤其适合高频词调用场景,在成本可控下保持高吞吐量。测试数据显示,o3的数学测试AIME 2025正确率92.7%、编程能力测试SWE-Bench Verified6正确率68.1%,在非STEM任务(科学、技术、工程、数学)上的表现也超越了上代模型o3-mini。

推理能力方面,此次推出的新模型首次实现“图像即推理要素”能力,突破传统“先识别后推理”的串联流程,将图像直接作为推理链的一环,支持在解析过程中实时调用工具(如缩放、旋转、格式转换),实现“边看边想”的动态分析。推理过程中,模型在向量空间同步编码图像与文本信息,基于视觉线索提出假设(如识别图表趋势后推导成因),并联动文本知识进行验证。

OpenAI官方称o3和o4-mini在多数情况下都比各自的前代o1与o3-mini更高效,也更节省成本。在AME2025基准测试中,性价比都远远超过前代模型。

定价方面,根据OpenAI官网,o3模型的定价为输入10美元/百万Token,输出为40美元/百万Token,较上一代模型o1(输入15美元/百万Token,输出60美元/百万Token)降低了33%;而轻量版o4-mini的定价为输入1.1美元/百万Token,输出为4.4美元/百万Token,与同性能竞品Gemini 2.5 Pro预览版(输入2.5美元/百万Token,输出15美元/百万Token)和Claude 3.7 Sonnet(输入3美元/百万Token,输出15美元/百万Token)相比定价低50%+。

成本优势支撑高频场景应用,早期测试显示,o4-mini在编程辅助、商业咨询等场景日均调用量已达o1的3倍。目前,ChatGPT Plus/Teams用户已优先接入新模型,生物医药、能源管理等领域客户正基于其多模态能力开发自动化分析工具。

OpenAI在官方博客中表示,他们在o系列模型中重走了与GPT系列类似的扩展路径——这次是在强化学习领域,通过增加训练计算量和推理时间的思考步骤,模型性能获得了明显提升。此开发步骤进一步验证了Scaling Law(规模定律)在多模态模型训练与推理阶段的持续有效性。在训练阶段大规模强化学习呈现计算规模与模型能力正相关;在推理阶段,“思考时间”延长显著优化结果质量。

1.3 豆包1.5•深度思考、文生图模型3.0、视觉理解模型上线

4月17日,火山引擎总裁发布豆包1.5•深度思考模型,升级豆包•文生图模型3.0、豆包•视觉理解模型。同时,面向Agent服务,发布OS Agent解决方案、GUI Agent大模型——豆包1.5•UI-TARS模型;面向大规模推理,发布AI云原生•ServingKit推理套件。

豆包 1.5・深度思考模型包含两个版本,第一个主线版本是大语言模型 Doubao-1.5-thinking-pro,第二个是具备多模态能力的视觉版
Doubao-1.5-thinking-pro-vision。前者推理能力更强,后者支持视觉推理,开发者可以按需使用。

经多项主流基准测试评估,Doubao-1.5-thinking-pro 在数学推理、编程竞赛、科学推理等专业领域任务以及创意写作等通用任务中均表现突出。

豆包1.5•深度思考模型通过MoE(专家混合)架构设计实现技术突破,总参数量达200B但单次推理激活参数仅20B,在算力资源利用效率上形成显著优势。同时支撑每秒超百万次的高并发请求,响应延迟压缩至20毫秒级别36。其核心突破在于动态任务分配机制,可根据输入内容自动匹配最优专家子模型,例如在编程任务中优先调用代码生成模块,在数学推理场景激活逻辑分析单元,实现效率与精度的双重跃升。

在推理能力迭代上,该模型首创"即时搜索-推理融合"范式,打破传统"先检索后决策"的线性流程。以露营装备规划为例,模型通过三轮动态搜索完成需求拆解:首轮筛选基础装备性能参数,次轮结合儿童安全需求优化选择,最终整合天气数据推荐防水方案,形成端到端的智能决策链。

视觉理解能力的升级推动模型进入多模态深度推理阶段,通过融合图像切片编码与文本逻辑链对齐技术,模型可对2K分辨率图像进行像素级解析。例如在医学影像诊断中自动放大病灶区域、比对病理数据库,并生成可追溯的推理报告。实测显示,其数学试题图片解析准确率达100%(8/8高考真题全对),发票信息结构化提取效率较传统OCR提升。在自动驾驶训练场景,模型支持多目标3D定位与速度感知,可实时解析道路视频流中的障碍物轨迹。

全新升级的豆包•文生图模型3.0,树立了生成式视觉技术的工业级应用标杆。具体来说,它实现了三大突破性升级:更好的文字排版表现、实拍级的图像生成效果、2K 的高清图片生成。

首先是中文小字和长文本的生成。新模型不仅较好地解决了小字和长文本的生成难题,更大幅提升了海报排版的美感,还在精准生成的基础上还做到了完美融合;其次,在人像生成领域,豆包文生图 3.0 模型能做到真实还原皮肤质感、表情走向、衣服的纹理等细节,还实现了不需要二次处理的2K高清直出。

在最新的文生图领域权威榜单 Artificial Analysis 竞技场中,已超越业界诸多主流模型,跻身全球第一梯队。

最新发布豆包•视觉理解模型具备更强的视觉定位能力,支持多目标、小目标、通用目标的框定位和点定位,并支持定位计数、描述定位内容、3D 定位。可应用于线下门店的巡检场景、GUI agent、机器人训练、自动驾驶训练等。

同时,新版本在视频理解能力上也有大幅提升,比如记忆、总结理解、速度感知、长视频理解等。豆包•视觉理解模型结合向量搜索,可直接对视频进行语义搜索,广泛适用于安防、家庭看护等商业化场景。

在与GPT4o模型的视觉能力对比实测中,豆包的视觉理解模型在豆包在专业垂类场景(如中国传统元素、冷门物体)表现更精准,且具备每秒43 tokens的高响应速度,结合0.003元/千tokens的超低定价(仅为行业均价15%),实现了多模态技术的高性价比落地。

在大会中,火山引擎正式推出OS Agent开发框架,构建覆盖轻量级至复杂场景的智能体开发体系。面向基础场景的Code Use与Browser Use,开发者可通过veFaaS平台直接调用预封装的大模型API,实现零代码搭建自动化脚本与浏览器操作Agent;针对GUI交互等高阶需求,则依托ECS弹性计算与云手机技术,结合自研的豆包1.5•UI-TARS多模态模型,完成界面元素识别、操作指令生成、跨应用流程串联等复杂任务。同步发布的UI-TARS模型突破传统RPA工具规则依赖,实现视觉理解-逻辑推理-操作执行的端到端闭环,已在火山方舟平台开放商用。

同时,为解决Agent规模化部署的算力瓶颈,火山引擎推出云原生推理套件ServingKit。该套件支持671B参数大模型在2分钟内完成云端部署,引擎冷启动时间压缩至13秒。通过KV Cache动态压缩技术,将高频请求场景的缓存命中率提升10倍,在100% cache 命中场景下 TPS 吞吐量可提高至5倍以上;结合对算子、AI 网关、VKE 编排调度的优化和升级,可以大幅度降低 GPU 消耗单位,这一技术突破为大模型驱动的自动化浪潮提供了可扩展的算力基座。

北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;下游需求不及预期影响公司正常生产和交付,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。


于芳博:中信建投人工智能组首席分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖人工智能等方向,下游重点包括智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。

举报