生数科技清华团队出手非凡:最强国产类Sora视频模型「Vidu」发布,效果一鸣惊人!
OpenAI“惊世骇俗”的Sora视频生成模型推出还不到一个季度,中国首个长时长、高度一致性、高动态性控制的视频大模型「Vidu」诞生。
虽然一度落后,但我们快马加鞭就赶上了!
日前,由清华大学教授、生数科技首席科学家朱军领衔的「Vidu」团队对外宣布,国内首个纯自研的长时长、高一致性、高动态性控制的视频大模型正式亮相。
废话不多说,直接上链接?:
生数科技是一家中国人工智能大模型研究企业,去年初成立,是目前国内估值最高的「Sora概念」创业公司。
在Sora发布后,今年3月中旬,生数科技CEO唐家渝对媒体透露:“年内目标要达到跟Sora一样的效果。”
现如今,首个「Vidu」模型版本亮相,在一致性与时长方面都给人非常眼前一亮的印象。
AI视频时长突破10秒大关
在去年,AI视频通常只能生成3~4秒。
「Vidu」生成的视频最长可达16秒,并且画面稳定流畅不闪屏,细节丰富、逻辑连贯。
即便像“海上飘荡的小船”这种画面,也没有出现穿模、鬼影、运动不符合物理的常见Bug。
话说回来,Sora之所以让世人感到惊艳,归根到底是因为AI视频注入了「镜头语言」。
生数科技的起点非常高~
朱军博士在发布会现场直接将「Vidu」与行业领导者的文生视频模型的效果进行对标。
他直言,「Vidu」在16秒内的视频创作与语义理解方面表现非常突出。
在发布会上,Vidu团队展示同款提示词直接对标Runway Gen-2与Pika。
并且公布了「Vidu」生成Sora官方案例的视频效果对比,可圈可点。
??让我们放大动图仔细来看,每一台?电视机都有独立的画面内容。
「Vidu」的本质仍然一款文生视频模型,采用的是“一步到位”的生成方式,与Sora一样可以直接输出高质量的“长视频”。
在底层算法实现上是基于单一模型完全「端到端」生成,与国内其他阿猫阿狗通过关键帧插帧增长的处理方式完全不同。
五大特色,国内遥遥领先
在性能参数方面,「Vidu」支持一键生成长度为16秒、1080P分辨率的高清视频内容。
该视频模型具备5大亮点:
模拟真实物理世界富有想象力多机位镜头语言高时空一致性理解中国元素等特色模拟真实物理世界
「Vidu」能够生成复杂、细节丰富的现实世界场景,并且符合物理规律,例如:合理的光影效果、细腻的人物表情等。
比如输出一辆SUV汽车加速行驶在陡峭土路上的场景,感觉就像是无人机实拍。
富有想象力
「Vidu」能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。
比如一艘画室里的一艘船驶向镜头”生成的视频。
多机位镜头语言
「Vidu」能够生成复杂的动态镜头,不再局限于简单的推、拉、移等基础镜头,而是能够围绕单一主题实现远景、近景、中景、特写等不同镜头取景切换,实现多样化的长镜头、追焦、转场等效果,给视频注入丰富的镜头语言。
比方说,生成一间海边的度假小屋宣传视频:阳光沐浴着房间,镜头缓慢过渡到阳台,俯瞰着壮阔的大海,最后镜头定格在大海、帆船和梦幻的云彩。
高时空一致性
在16秒的时长上始终保持着连贯流畅的镜头语言,随着镜头的移动,角色与场景在时间、空间能够保持高度一致性,不会出现掉帧或者穿模、模糊。
比如这一幅《戴珍珠耳环的女孩》经典画作的「猫咪版」变体创作,蓝眼睛的大橘取代了原本的女主,缓缓地转头回眸。
理解中国元素
作为一款国产视频大模型,「Vidu」比Sora等国外模型,更能充分理解并生成具有中式鲜明特征的画面元素,例如:熊猫、龙等。
这是「Vidu」根据提示词生成湖边弹吉他的熊猫。?将现实主义与艺术创作相结合,熊猫沐浴在阳光下光影也十分自然。
两个月快速突破的秘籍
要比拼「卷」的功力,OpenAI还真不一定卷得过中国人。
生数科技的核心团队来自清华大学人工智能研究院的班底。首席科学家由清华人工智能研究院副院长朱军领衔;CEO唐家渝出自清华大学计算机系。
唐家渝在3月份面对记者时,还显得并不那么自信,当时他给出赶上Sora的时间表,“很难说是三个月还是半年”。
如今实际还不到2个月,团队就实现了重大突破,背后是如何做到的?
据了解,选对技术路线最为关键——
「Vidu」底层架构基于完全自研的U-ViT架构,该架构由生数科技团队在2022年9月提出,甚至早于Sora采用的DiT架构。并于2023年3月,也就是一年前完善了架构的框架设计。
U-ViT架构是全球首个基于Diffusion扩散模型与生成式AI基础架构Transformer融合的视频生成架构。
Transformer被认为是当今大语言模型的理论基础,训练参数量越大,则效果越好,而Diffusion常用于AI图像与视频生成。
早在2023年3月,该团队就将U-ViT架构用于AI图像生成,这比近期刚刚切换到DiT架构的知名开源AI绘图工具Stable Diffusion 3早了一整年。
因此,「Vidu」复用了生数科技在图文生成任务的许多累积经验,快速跑通了视频生成的训练流程。在保持高效训练效果的同时,GPU算力开支降低80%,训练速度累计提升40倍。
「Vidu」的横空出世,让我们对于中国AI视频国产化技术路线落地有了更多的期待!
-
生数科技清华团队出手非凡:最强国产类Sora视频模型「Vidu」发布,效果一鸣惊人!
生数科技CEO唐家渝透露:“年内目标要达到跟Sora一样的效果。”现如今,首个「Vidu」模型版本亮相,在一致性与时长方面都给人非常眼前一亮的印象。
2025-01-29 18:28:22 -
OpenAI CEO奥特曼在斯坦福大学演讲:不要浪费时间解决GPT-4的局限性,GPT-5会让一切努力白费
斯坦福大学辍学出道的 OpenAI CEO 奥特曼,近日受到了大量在校生的追捧和欢迎,奥特曼向大学生与大学创业者们分享了他对 AI 未来发展的洞见
2025-01-29 18:06:01 -
英国最新调查显示:因为AI技术突破,1/3的翻译人员和1/4的插画师丢掉了工作
英国作家协会对12500名协会的成员进行了一项关于生成式AI技术发展的影响调查,1 4的插画师和超过1 3的翻译人员(36%)因生成式AI引入而失去了工作。
2025-01-29 17:37:35 -
中国版Sora来了!一键生成16秒1080P的AI视频,清华团队直面对标OpenAI
追赶 OpenAI 文生视频模型 Sora 需要多久?在中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态视频大模型 Vidu 正式发布,支持一键生成长达 16 秒、分辨率为 1080P 的高清视频内容。
2025-01-29 17:11:07 -
创作者亲自揭开Sora视效大片《气球人》真相:大量人工后期参与,被指广告宣传效果误导大众
Sora生成视频《气球人》背后艺术家团队最新揭秘:原来,视频画面并非完全由AI系统逐帧自主生成,其中有大量视觉效果需要人类后期实现。
2025-01-29 16:43:15 -
苹果5月7日新品发布活动产品曝光:旗下首款AI平板电脑,新一代iPad Pro将直接搭载M4处理器
地时间5月7日,苹果公司将会发布新一代的iPad设备。苹果新一代的iPad Pro,直接搭载M4芯片,跳过M3这一代,主要提升的是神经网络引擎的性能。
2025-01-29 16:20:39
-
AI绘画comfyUI教程_图生图工作流程
本期的视频教程是关于在ComfyUI中搭建完整的图生图工作流的。视频中介绍了如何使用ComfyUI中的组件来实现图像的裁剪和重绘。
2024-12-18 13:42:28 -
商汤AI视频生成器如影使用方法_如影使用教程_AI视频生成测评
国内知名人工智能软件公司商汤科技近日宣布,“商汤如影SenseAvatar”数字人视频生成平台正式上线,产品愿景是“让每个人都可以轻松制作视频”,非常的直抒胸臆呀。
2024-12-17 03:24:28 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57