清华系重磅出手!国内首个「Sora级」AI视频大模型横空出世,全面对标Sora,可生成6秒时长视频
以下文章来自于丨智东西
4月27日,2024中关村论坛人工智能主题日未来人工智能先锋论坛上,清华大学教授、生数科技首席科学家朱军宣布,生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型Vidu。
根据公开融资信息,成立于去年3月的生数科技,是当前主要国内累计融资额及估值最高的类Sora创企,迄今已完成数亿元融资,投资方包括百度风投、智谱AI、蚂蚁集团以及创始成员多数来自于原字节跳动投资团队的锦秋基金。
朱军现场展示了Vidu与Pika、Gen-2、Sora等行业现有文生视频大模型的生成视频效果对比。他评价说,Vidu在16秒长期保持和语义理解等方面表现得非常突出。
▲使用相同提示词,Vidu与Pika、Gen-2生成视频对比
▲使用相同提示词,Vidu与Sora生成视频对比
▲Vidu生成视频的部分动图
Vidu能根据文本描述直接生成16秒高质量视频,且生成视频流畅连贯,没有明显的插帧现象。据介绍,这是因为Vidu采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,无需经过多个步骤的关键帧生成和插帧处理。
一键生成16秒高清视频,Vidu具有5大特色
Vidu支持一键生成长达16秒、1080P分辨率的高清视频内容,具备模拟真实物理世界、富有想象力、多镜头语言、高时空一致性、理解中国元素等特色。
1、模拟真实物理世界。能够生成复杂、细节丰富的场景,且符合物理规律,例如合理的光影效果、细腻的人物表情等。
▲在输入复杂SUV加速行驶在陡峭土路上的场景描述后,Vidu生成的视频
2、富有想象力。能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。
▲Vidu根据提示词“画室里的一艘船驶向镜头”生成的视频
3、多镜头语言。能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言。
▲Vidu根据提示词“在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩”生成的视频
4、高时空一致性。在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致。
▲Vidu根据提示词“这是一只蓝眼睛的橙**的肖像,慢慢地旋转,灵感来自维米尔的《戴珍珠耳环的女孩》,画面上带着珍珠耳环,棕色头发像荷兰帽一样,黑色背景,工作室灯光”生成的视频
5、理解中国元素。能够理解、生成特有的中国元素,例如熊猫、龙等。
▲Vidu根据提示词“在宁静的湖边,一只熊猫热切地弹着吉他,让整个环境变得活跃起来。晴朗天空下平静的水面倒映着这一场景,以生动的全景镜头捕捉到,将现实主义与大熊猫活泼的精神融为一体,创造出活力与平静的和谐融合”生成的视频(受限于可上传动图大小,做了压缩处理)
快速突破源于多项原创成果,文生视频能力加速成长中
朱军称其快速突破离不开5个要素:算法原理、模型架构、算力资源、数据治理、工程实现。
他谈道,Vidu的快速突破源于长期积累和多项原创成果,其技术路线与Sora高度一致。2022年9月,其团队在全球首发U-ViT网络架构,这是全球首个Diffusion Transformer架构,这一架构提出3个月后,Sora采用的同源基础架构DiT的论文才发表。
受限于算力限制,其团队起初选择做文生图、文生3D这类计算量相对小一些的大模型研发,2023年3月在全球首发并开源基于U-ViT架构的多模态大模型UniDiffuser,在全球范围内率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型,支持图文模态间的任意生成和转换,在架构上比同样DiT架构的Stable Diffusion 3领先了一年。
同年5月,该团队提出文生3D新算法Prolific Dreamer,今年1月发布4D框架Animatable Dreamer并实现可生成4秒视频的文生视频模型。
“Sora出来之后,刺激了我们攻关的速度。”朱军说,团队第一时间紧急启动和攻关,3月将视频时长突破8秒,4月突破16秒,短短两个月实现了长视频表示与处理关键技术的突破,取得了今天的效果,将视频连贯性与动态性显著提升。
结推出Vidu大模型合作伙伴计划,共建生态推动视频大模型发展
朱军解释说,Vidu的取名有多重含义,首先字面含义与“Video视频”相近,更深层的含义还表达了三个愿景:
一是谐音“We do”,“我们第一时间决定我们应该要做,而且立即去做”;
二是谐音“We did”,今天的进展虽然只是迈出一小步,但确实做到在这个方向能够有突破性进展;
三是“We do together”,现在的进展还在初步阶段,希望与国内优质单位合作,共同实现技术进步。
大模型的突破是一个**度、跨领域的综合性过程,需要技术与产业应用的深度融合。为此,生数科技正式推出「Vidu大模型合作伙伴计划」,发起合作伙伴申请通道,诚邀产业链上下游的企业和研究机构共同合作,推动视频大模型发展。
-
清华系重磅出手!国内首个「Sora级」AI视频大模型横空出世,全面对标Sora,可生成6秒时长视频
2024中关村论坛上,生数科技首席科学家朱军宣布,生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型Vidu。
2025-01-29 18:48:43 -
生数科技清华团队出手非凡:最强国产类Sora视频模型「Vidu」发布,效果一鸣惊人!
生数科技CEO唐家渝透露:“年内目标要达到跟Sora一样的效果。”现如今,首个「Vidu」模型版本亮相,在一致性与时长方面都给人非常眼前一亮的印象。
2025-01-29 18:28:22 -
OpenAI CEO奥特曼在斯坦福大学演讲:不要浪费时间解决GPT-4的局限性,GPT-5会让一切努力白费
斯坦福大学辍学出道的 OpenAI CEO 奥特曼,近日受到了大量在校生的追捧和欢迎,奥特曼向大学生与大学创业者们分享了他对 AI 未来发展的洞见
2025-01-29 18:06:01 -
英国最新调查显示:因为AI技术突破,1/3的翻译人员和1/4的插画师丢掉了工作
英国作家协会对12500名协会的成员进行了一项关于生成式AI技术发展的影响调查,1 4的插画师和超过1 3的翻译人员(36%)因生成式AI引入而失去了工作。
2025-01-29 17:37:35 -
中国版Sora来了!一键生成16秒1080P的AI视频,清华团队直面对标OpenAI
追赶 OpenAI 文生视频模型 Sora 需要多久?在中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态视频大模型 Vidu 正式发布,支持一键生成长达 16 秒、分辨率为 1080P 的高清视频内容。
2025-01-29 17:11:07 -
创作者亲自揭开Sora视效大片《气球人》真相:大量人工后期参与,被指广告宣传效果误导大众
Sora生成视频《气球人》背后艺术家团队最新揭秘:原来,视频画面并非完全由AI系统逐帧自主生成,其中有大量视觉效果需要人类后期实现。
2025-01-29 16:43:15
-
AI绘画comfyUI教程_图生图工作流程
本期的视频教程是关于在ComfyUI中搭建完整的图生图工作流的。视频中介绍了如何使用ComfyUI中的组件来实现图像的裁剪和重绘。
2024-12-18 13:42:28 -
商汤AI视频生成器如影使用方法_如影使用教程_AI视频生成测评
国内知名人工智能软件公司商汤科技近日宣布,“商汤如影SenseAvatar”数字人视频生成平台正式上线,产品愿景是“让每个人都可以轻松制作视频”,非常的直抒胸臆呀。
2024-12-17 03:24:28 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57