进化到能识别人类情绪价值?今天免费的GPT-4o来了

“有时候我观察人们,我会试着把他们当做自己,会想象他们如何深爱着他人,或者经历过怎样的心碎。”——科幻电影《her》 中的电影情节似乎有望成为现实。

01

炸裂的OpenAI发布会

10年前,一部叫做《Her》的电影获得了2014年第86届奥斯卡最佳原创剧本奖,它讲述了一个孤独的作家爱上了手机里人工智能语音助手的故事。电影中,这个叫Samantha的AI拥有着一把沙哑性感的嗓音,她风趣幽默、善解人意,随时随地陪伴着男主,并逐渐成为他生活中不可缺少的一部分。

而10年后的今天,在OpenAl举办的春季发布会上,伴随着GPT-40新模型的到来Samantha已然正式成为了现实。此次升级版的ChatGPT不仅能像Samantha一样陪你自然地聊天谈心,甚至还能透过手机摄像头观察并理解你的情绪。

北京时间周二凌晨一点,OpenAI在发布会上推出最新的多模态大模型GPT-4o(o代表Omni,意为全能的)。这款“全能的”大模型具备能够处理文本、音频和图像的能力。与前几代模型相比,它增加了语音功能,且运行速度更快。

此次OpenAl的发布会非常简短,全程仅26分钟,但ChatGPT的进化却足以让人叹为观止

虽然GPT-5没有如期到来,但此次OpenAl最新的旗舰大模型GPT-40已经让人机交互这件事发生了“质变”。根据官方介绍,40 中的“o”是“omni(全能)”的缩写,它代表着这一版本的GPT已经把文本、视觉、音频等能力全部打通,可以接受任意组合的输入和输出其最短232毫秒、平均320毫秒的音频输入响应时间,现在已经达到了人类在对话中的反应速度。

据了解,GPT-4o是迈向更自然人机交互的一步,它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,“与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。”

在GPT-4o之前,用户使用语音模式与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,让GPT-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。

与之相比,GPT-4o可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。在录播视频中,两位高管做出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。

在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。

更重要的是,GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。

02

具备情感理解能力的GPT-4o

相对于当下大模型在参数、性能上的“内卷”,GPT-4o能成为全球科技圈关注的焦点,主要还是在“情感理解”能力上。

GPT-4o在理解人类交流方面迈出了重要的一步,用户可以用一种接近自然的方式与其交谈。它伴随着现实世界中几乎所有的倾向,比如打断、理解语气,甚至意识到自己犯了一个错误。

在第一次现场演示中,主持人要求GPT-4o对他的呼吸技巧做出反馈。他对着手机深深地吸了一口气,而ChatGPT则诙谐地回应道:“你不是吸尘器。”它建议使用一种速度较慢的技术,展示其理解和回应人类细微差别的能力。

除了具有幽默感,ChatGPT也会改变回应的语气,在传达“思想”的同时用不同的语调来完成。就像人类对话一样,你可以打断它的对话并纠正它,让它做出反应或停止说话。你甚至可以要求它以某种语气、风格或机器人的声音来说话。

此外,它甚至还可以提供翻译服务。在现场演示中,舞台上的两名演讲者,一名说英语,名说意大利语,通过Chat GPT-4o的翻译进行对话。它可以快速将意大利语翻译成英语,然后无缝地将英语回复翻译回意大利语。

OpenAI称,GPT-4o还可以检测人的情绪。在演示中,Zoph将手机举到自己面前正对着脸,要求ChatGPT告诉他自己长什么样子。最初,GPT参考了他之前分享的一张照片,将他识别为“木质表面”。经过第二次尝试,GPT给出了更好的答案。

GPT注意到了Zoph脸上的微笑,对他说:“看起来你感觉非常快乐,喜笑颜开。”有评论称,这个演示显示,ChatGPT可以读取人类的情绪,但读取还有一点困难。

不仅是对人类语气和状态的感知,以及代表人类“情商”的幽默表达,ChatGPT还展示出了对话可被随时打断并即时跟进的能力。总之,在与OpenAI研发负责人Mark Chen的对话中,它已经近乎于一个真实人类,对话没有尴尬的停顿点,也没有理解障碍的地方。

除了实时对话,Mark Chen也引导ChatGPT表现了在讲故事情境下渲染音色的能力。他要求ChatGPT讲述一个主题为“恋爱中的机器人”的睡前故事,并连续两次要求其用更加“drama”(戏剧化)的方式朗读,用户可以明显感受到有递进感的音色,这背后是明显的情感表达能力。

OpenAI的高管表示,GPT-4o可以与代码库交互,并展示了它根据一些数据分析图表,根据看到的内容对一张全球气温图得出一些结论。OpenAI称,基于GPT-4o的ChatGPT文本和图像输入功能将于本周一上线,语音和视频选项将在未来几周内推出。

GPT-4o 可以看作是人机交互自然化的重要进步,它的应用潜力及其操作界限仍处于初步阶段,还有待进一步探索和实验。

OpenAI 还展示了 GPT-4o 在日常场景中的一些应用,从娱乐到教育,从社交到专业辅助,表明它能够在多个方面辅助人类。比如,提高视障人士的生活质量、实时翻译、帮助学习新语言、在线会议或面试中的辅助交流、与宠物互动、玩游戏等。

03

多模态的智力表现

情感之外,GPT-4o是一款多模态产品。

OpenAI 首席执行官 Sam Altman 并未亮相现场,但他在“幕后”发帖力挺新推出的 GPT-4o,并将其称为“智能、快速、原生多模态,是有史以来最优秀的模型”。

显然,Sam Altman 所说的“原生多模态”指的是融合了文本、图像和语音功能。他还发帖称,希望尝试使用 GPT-4o 的开发者将可以获得 API,从周一开始就可以使用该新模型构建应用,其价格为 GPT-4 Turbo的一半,但速度可以达到后者的两倍。

OpenAI称,“我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。由于GPT-4o是我们第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。”

除了在直播中重点强调的功能,在OpenAI的技术文档中,我们看到在GPT4-o的能力列表中,还包含3D能力、图像诗能力、转换卡通照片等能力。

尽管多模态AI尚处于初期阶段,但已有多个模型开始涌现。Google的 Gemini Ultra模型在多学科多模态理解和推理(MMMU)基准测试中超越了GPT-4,显示出多模态模型的潜力。为了保持竞争力,更多的大型语言模型开发者将跟进开发多模态功能。

此外,多模态AI预计将解锁新的商业机会,如Artera在医疗保健领域的应用、Google将Gemini集成到搜索中、Ghost Autonomy在自动驾驶领域的探索,以及Meta将其应用于消费设备如智能眼镜。

今年以来,全球AI大模型端都持续迭代升级,包括海外的Sora、Llama3等,国内的Kimi、昆仑天工AI、阶跃星辰等。华泰证券指出,伴随模型能力的升级,2C应用有望迎来加速发展。2C应用核心要解决的是产品性能以及用户的付费意愿,伴随底层基础模型的能力优化,2C应用的使用效果显著提升,同时应用模态正在加速拓展。

多模态被视为AIGC行业2024年重要趋势之一。量子位发布的《中国AIGC应用全景报告》显示,2024年中国AIGC(生成式人工智能)应用市场规模将达200亿元,2030年达万亿元规模,2024年到2028年的年平均复合增长率将超30%。

04

何时能用上GPT-4o

OpenAl将于今日起推出GPT-40 的文本和图像功能,并强调ChatGPT的免费用户也能够使用。在此之前,免费用户仅拥有GPT-3.5的使用权限,GPT-4模型面向的是付费用户。

据OpenAl介绍,付费用户会获得高达5倍的消息容量限制。当免费用户用完限定的信息数量后,ChatGPT会自动切换到GPT-3.5。

目前GPT-4o的API中还未包括语音功能。OpenAl对滥用风险表示了担忧,计划将在未来几周内向付费用户提供新的音频功能。GPT-4o的多语言能力也得到了升级。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高。同时API的速度也更快,成本降低了50%。

ChatGPT的更新还包括新的用户界面(UI)和适用于macOS的桌面版ChatGPT。用户可以使用快捷键向ChatGPT提问,并直接在应用程序中通过屏幕截图进行讨论。Mira Murati表示,“我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与GPT的协作。

05

更多工具免费解锁

ChatGPT的免费用户也能用上最新发布的GPT-4o模型(更新前只能使用GPT-3.5),来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也意味着GPT应用商店的开发者,将面对海量的新增用户。

当然,付费用户将会获得更高的消息限额(OpenAI说至少是5倍)。当免费用户用完消息数量后,ChatGPT将自动切换到 GPT-3.5。另外,OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验,目前GPT-4o的API并不包含语音功能。

另外,OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验,目前GPT-4o的API并不包含语音功能。苹果电脑用户将迎来一款为macOS设计的ChatGPT桌面应用,用户可以通过快捷键“拍摄”桌面并向ChatGP提问,OpenAI表示,Windows版本将在今年晚些时候推出。

05

OpenAI的竞争对手

GPT-4o一经推出,OpenAI的竞争对手似乎坐不住了。谷歌很快在社交媒体X平台上发布了一段预览Gemini大模型功能的视频。在视频中,这一AI模型能够通过摄像头来描述画面中发生的情况,并实时提供语音反馈,就像OpenAI最新展示的那样。谷歌将在北京时间周三凌晨一点举办年度I/O开发者大会,预计会展示一系列AI相关的产品。

去年12月,谷歌发布了Gemini 1.0版本,称其具有多模态交互能力。在视频演示中,Gemini能够实时感知人类动作,并直接做出语音回应。但随后视频被曝出经过剪辑,谷歌也承认为了演示效果,减少了延迟并缩短了Gemini的输出时间。

不少人还将OpenAI的GPT-4o与苹果的AI助理Siri进行对比。据彭博社此前报道,苹果即将与OpenAI达成协议,正在敲定在下一代iPhone操作系统iOS18中应用ChatGPT功能的具体条款。苹果将在6月举办WWDC全球开发者大会,预计会在活动上宣布一系列人工智能功能。

值得一提的是OpenAl今天的更新,似乎又把之前饱受诟病的A语音助手带回到了舞台中心。但实际上随着大模型走向成熟,在过去一年中,大量的AI公司已经在这个赛道中提前布局甚至进行了一系列的商业化变现尝试。只是他们的产品并不是以手机、设备中的传统的语音助手形式出现,而是包裹着“AI陪伴”的概念外衣。

如今在TikTok上,当你输入“Al dating”、“Al companion”这样的关键词时,你会发现平台上大量的相关产品和推荐浏览量都在百万级别以上。他们有些是以二次元、卡通形象结合AI的形式,有些则是真人化的AI形象。其中,目前最为出圈的包括Character.ai,CrushOn,Talkie,Replika等等。

跟此前更加注重功能属性的ChatGPT相比,这些AI产品则更侧重于情感陪伴和情绪价值目标就是以更加贴近真人的语言方式来为用户提供个性化的社交体验。而从目前的效果来看AI陪伴类的产品的用户粘性要比功能性AI产品要高出许多。功能性AI产品往往是在特定需求和寻求解决方案的情景下才会使用,但人们在跟AI陪伴产品的交互中所投入的时间和精力却转化成为了一种情感寄托,让其成为一种长期的交互纽带。

然而,真正感到无力的恐怕是AI伴聊赛道的创业企业。

AI Chat把大模型变成人类想象力的引擎。就像电影《Her》表现的那样,主人公可以和逝世多年的Alan Wstts的虚拟AI在线聊天。

迭代至今,赛道领先者Character.ai已上线Group Chat,用户能同时和拿破仑、马斯克或泰勒·斯威夫特等明星一起聊天。

AI角色扮演已经成为了AIGC一个可落地方向。近期,一款AI虚拟人物聊天软件Talkie: Soulful AI(以下简称Talkie)在Google Play新西兰、英国、加拿大、澳大利亚、美国等地区娱乐(免费)持续一个月霸榜前10。这款软件背后的公司是今年上半年国内估值最高的初创企业MiniMax。去年11月,MiniMax推出的试水产品AI陪伴软件Glow便是Talkie的前身。

Talkie推出的同时,MiniMax联合创始人手下一款国内AI陪聊+抽卡软件星野上线,可以合理推断,星野是Talkie的国内版。

让Talkie从多种AI Chat中脱颖而出的是其卡牌机制,吸引了大批热爱OC(原创角色)、AGC爱好者及渴望陪伴交流的用户。用户与角色Chat自然交流的过程中如果触发特定话题会有抽取CG卡牌的机会,这同样是Talkie变现的重要方式。

AI Chat类产品具有强大的市场和流量。即使在Glow下架期间,用户都在寻找“平替”,国内AI Chat赛道中的X Her、筑梦岛、彩云小梦、Aura AI都在产品使用设计上想以创新方式突出重围。

如筑梦岛由上海阅文推出,原本是潜在潇湘书院APP中,其产品设计与Glow一致,包含人设信息、开场白和头像做角色板,用户也能自创小剧场故事设定再与AI机器人角色聊天。相较Glow有更长的上下文限制和记忆力。阅文集团是MiniMax的合作伙伴之一,有人称筑梦岛实际上是接入其API。

然而,当能够读懂人类情感的GPT-4o出现之后,无论是OpenAl亲自下场还是开放API接口,对于这类以AI伴聊为赛道的创业企业而言,恐怕都不是什么好消息。

06

写在最后:电影《Her》中的萨曼莎

如果想到了《Her》(一部和AI虚拟人萨曼莎谈恋爱的电影),或者其他与AI相关的未来主义反乌托邦电影,你不是唯一的一个。以如此自然的方式与Chat GPT-4o交谈,本质上就是OpenAl的《Her》时刻。考虑到它将在移动应用程序和桌面应用程序上免费推出,许多人可能很快就会拥有自己的《Her》时刻。


虽然并未在直播演示中现身,但OpenAICEO 萨姆·奥特曼(Sam Altman)对这次演示做了重要的总结,称GPT-4o给人的感觉就像电影中的AI。

他说:“新的语音和视频模型GPT-40是我用过的最好的计算机界面,这感觉就像电影中的AI。而且,对我来说,它真实的仍然有点令人惊讶,达到了人类级别的响应速度和表现。最初的ChatGPT显示出了语言界面的可能性,但GPT-4o这个新事物感觉本质上有所不同,它快速、智能、有趣、自然、实用。”

举报
评论 0