Vidu正式上线:清华团队力作媲美Sora,主打角色一致性与动漫风格

生数科技的 Vidu视频生成应用7月30日正式上线。

用户无需申请,只需注册邮箱即可使用。Vidu的最大亮点是其生动逼真的效果,媲美全球领先的 Sora。

Vidu是由清华系多模态大模型公司生数科技研发的,团队由清华朱军教授带队。该应用支持文/图生视频功能,视频长度可自由选择4秒或8秒,分辨率最高可达1080P。

官方宣称 Vidu拥有业界最快的推理速度,生成一段4秒的视频仅需30秒。同时,用户注册后每月可获赠80积分,支持免费使用。另有3种付费套餐可供选择。

在全量开放之前,Vidu曾在今年4月发布宣传片,支持生成16秒视频。这次正式发布新增了角色一致性和动漫风格等功能,让用户体验更丰富多彩。

上手实测:多功能体验惊艳

上手体验中,Vidu展现了其高动态性、高逼真度、高一致性等特点,并新增了动漫风格和特效生成等功能。用户可选择4秒或8秒的视频时长,分辨率最高达1080P。

提示词:一间简陋的厨房中,一个年轻的厨师正忙碌地烹饪。镜头从厨师的背后跟随,记录他流畅的动作:翻炒、调味、摆盘。厨房的灯光昏黄但温暖,映照在厨师专注的脸上。他熟练地挥动着铲子,锅中的食材发出滋滋的声响。镜头切到近景,特写炽热的锅中食材翻滚的画面,油花四溅。

提示词:一片寂静的森林,阳光透过浓密的树叶洒下斑驳的光影。一只小鹿突然从树丛中探出头来,谨慎地观察四周。镜头从小鹿的视角出发,环顾四周的环境,树木高大茂密,地上铺满了厚厚的落叶。突然,一阵微风吹过,树叶沙沙作响。镜头切换到小鹿的正面,特写它的眼睛,清澈而明亮,充满好奇。

提示词:天使一飞冲天

提示词:无

亮点功能:角色一致性与动漫风格

Vidu此次发布新增了两个亮点功能:角色一致性和动漫风格

在“图生视频”功能中,用户可以上传图片并选择“参考人物角色”,生成具有一致性的视频片段。

角色一致性功能让用户上传角色图像后,可以在任意场景中指定该角色的动作。

这一功能不仅简化了视频制作流程,还支持创建梗图和表情包等内容,极大地方便了创作者。不再需要为每个场景单独设计角色,大大提升了创作效率。

动漫风格的引入让Vidu在众多写实风格的AI视频工具中脱颖而出。

它不仅能够生成写实视频,还可以生成高质量的动漫风视频

提示词:一位身穿白色连衣裙的小女孩在花园中奔跑,四周是盛开的鲜花和翠绿的草地。镜头从空中俯视,随着小女孩的移动而旋转,展示出花园的全貌。阳光明媚,花瓣在风中轻轻摇曳,仿佛在欢迎小女孩的到来。小女孩的笑声在空气中回荡,她时不时停下来,弯腰嗅闻花香。镜头缓缓下移,最终定格在她俯身采摘一朵红玫瑰的瞬间。光线柔和,颜色鲜艳,整个画面充满了生机与活力。

与市面上如Runway的Gen-3工具需要1分钟生成5秒视频相比,Vidu只需30秒便可生成4秒视频片段,效率高出一倍。这个速度优势让用户不再为漫长的等待而烦恼,真正实现了快速、高效的创作体验。

自研 U-ViT 架构

Vidu的底层技术基于生数科技自主研发的U-ViT架构,这是全球首个融合了Diffusion 和 Transformer技术的架构。U-ViT 提出了用Transformer替代传统 CNN 架构,是目前视频生成领域的重要创新。

U-ViT的架构优势在于简化了视频生成过程,无需插帧或拼接,确保了视频从头到尾的连续性,生成的内容一镜到底。这种直接且连续的生成方式使 Vidu的视频效果更加自然流畅,没有明显的拼接痕迹。

此外,生数科技在多模态模型的开发中积累了丰富的经验,使 Vidu 能够生成多样化且更长时长的视频内容。公司计划进一步提升 U-ViT 的能力,未来将支持更广泛的多模态应用,如文本、图像、视频和3D模型的生成。

生数科技成立于2023年3月,由清华大学人工智能研究院的核心成员创立。团队包括首席科学家朱军、CEO唐家渝和CTO鲍凡,三人都在人工智能领域有着深厚的研究背景和经验。

自成立以来,生数科技已经获得蚂蚁集团、启明创投、BV百度风投等多家知名机构的投资,融资数亿元,成为国内估值最高的多模态大模型创业公司之一。

生数科技的战略是同时发展模型层和应用层,面向B端提供模型服务,同时面向游戏制作、影视后期等内容创作场景提供应用解决方案,并计划通过订阅模式实现商业化。

如果你觉得这篇文章对你有所帮助,欢迎点赞、收藏以及转发分享。同时,请关注我,以获取更多关于人工智能的最新资讯和见解!

官网:

https://www.vidu.studio/

参考:

https://www.shengshu-ai.com/home

举报