能画对“夫妻肺片”的文生图大模型来了!与Sora同款架构

能理解并生成“夫妻肺片”“胸有成竹”的中文开源大模型出现了。

5月14日,腾讯宣布,旗下混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

据悉,升级后的混元文生图大模型采用了与 sora 一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。南都记者实测发现,目前混元文生图大模型已能充分理解中文成语、诗句和快速生成图片,同时支持用户在多轮对话中对图片进行调整。

采用Sora同款架构,中文俚语理解力增强

南都记者了解获悉,升级后的腾讯混元文生图大模型采用了Sora和Stable Diffusion 3的同款架构和关键技术。据悉,随着参数量的提升,基于Transformer架构的扩散模型能展现出更好的扩展性,有助于进一步提升模型的生成质量及效率。

试验发现,腾讯混元文生图大模型能实现多轮对话,其长文本理解能力最多能支持256字符的内容输入。用户可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,来达到更满意的效果。

去年3月,一批最先推出文生图模型的厂商火出圈的不是产品,而是模型给用户开出的各式脑洞。比如,当网友对文心一言等模型输入“车水马龙”“鱼香肉丝”等关键成语时,模型大多按照字面意思输出“一辆车、一滩水、一条龙”和“用肉丝做成的鱼”。

南都记者了解获悉,文生图模型出现这样的开脑洞现象,多是因为核心数据集以英文为主,对中文的语言、美食、文化、习俗都理解不够。腾讯文生图负责人芦清林在沟通会上表示,过去大家通常都是用国外的东西在中文的数据上做一个新调,这种情况下意味着首先要把国外的数据做一层翻译,翻译过程中会造成很多损失和歧异。但混元文生图并没有经过这样的翻译过程,直接用中文原生的数据进行训练,所以它能理解中文。

在此次沟通会上,腾讯方面还透露,新一代腾讯混元文生图大模型视觉生成整体效果相比前代提升超过 20%,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著,能生成古诗词、俚语、传统建筑、中华美食等中国元素。

南都记者试验发现,当输入炎炎夏日中的“映日荷花别样红”时,混元能理解诗句并生成正常的荷花和夏景。输入去年在多个文生图大模型中“翻车”的“鱼香肉丝”和“夫妻肺片”名菜,模型也能生成符合人类理解的菜品。

不过,在随机输入“请画一盘蚂蚁上树”时,混元画出的图片按照字面意思理解,南都记者调整提示词为“请画一道叫蚂蚁上树的菜”时,画出来的才是川菜“蚂蚁上树”。

全面开源,今年将应用到QQ、企业微信等场景

据悉,目前腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型,发布了一站式 AI 广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。

此次沟通会上腾讯方面还宣布要把最新的文生图模型开源。这意味着开发者及企业无需重头训练,即可直接用于推理,并可基于混元文生图打造专属的AI绘画应用及服务,能够节约大量人力及算力。据悉,腾讯已开源了超 170 个优质项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块。

在文生图模型的应用场景上,腾讯文生图负责人芦清林在会后接受群访时表示,去年文生图模型已经深入和广告场景做了一些协作,也已经和腾讯游戏做了深度技术合作、支撑QQ音乐业务场景。今年文生图模型还会跟社交软件包括QQ、企业微信很多业务场景做联动。

芦清林还表示,在这个时间段选择开源,一是因为混元自己已经准备好了具备开源的条件,二是看到大家越来越多地选择在DiT架构上去做开发,也就是说业界也需要开源。“我们原来走的是闭源路线,去年一直都是把模型迭代、再把接口开放给大家用。但我们发现在开源社区能让大家都参与进来,大家共建能让这件事情能走得更快。后面我们也在考虑把其他大模型的开源。”

采写:南都记者 林文琪

举报
评论 0