字节跳动发布豆包视频生成模型,这效果让我分不清AI虚拟与现实的边界
以下文章转载自丨IT之家
9 月 24 日,火山引擎 AI 创新巡展在深圳举办,带来了豆包大模型的最新进展——豆包大模型家族迎来了新成员,这是针对 AI 视频创作。
具体来说,火山引擎全新推出了豆包·视频生成模型,以及豆包·音乐模型、同声传译模型,同时还升级了通用语言模型、文生图模型、语音模型,不断增强各类模态以及规模化的调用量,让豆包大模型“更强模型、更低价格、更易落地”的优势持续凸显。
此外,多家行业客户也在会上分享了大模型应用的实践经验。
本次豆包带来的一系列大模型进展中,最引人关注的,莫过于全新豆包视频生成模型,它能够带来影视级视觉感受的视频生成效果,全面推动豆包大模型 AIGC 应用创新的步伐。
在豆包视频生成模型正式推出之前,可能不少同学已经使用过市面上一些 AI 生成视频的产品。小编此前也做过体验,总体来说这些大模型生成的视频往往有比较明显的“AI 痕迹”,无论是视频的内容逻辑、画面自然度等方面,都有待提升,而且对语义指令的理解也存在问题,经常会生成一些不符合指令要求的视频。
而这些问题在豆包视频生成模型中,都得到了针对性的解决,同时也成为其不可忽视的产品亮点。
首先,豆包视频生成模型拥有精准的语义理解能力,支持多动作多主体交互的内容生成。相比大部分视频生成模型只能完成简单指令单一动作,豆包视频生成模型可以遵从更复杂的 prompt,解锁时序性多拍动作指令与多个主体间的交互能力,指哪儿打哪儿,为你打开想象力的大门。
比如下面这则视频,两位主角的动作、表情都非常自然,包括马儿看起来也很真实。
还有下面这段视频,首先女主的表情十分细腻自然,当男主入画时,女主缓缓戴上墨镜,和男主的动作交互也非常真实,看起来似乎是有些抗拒,将复杂细腻的微动作都呈现了出来,从而让视频呈现出强烈的“故事感”。
其次,豆包视频生成模型支持强大动态与炫酷运镜,让 AI 生成视频告别 PPT 动画质感。针对高动态的复杂场景视频、多样化表达的文本指令,豆包视频生成模型基于高效的 DiT 融合计算单元,更充分地压缩编码视频与文本,使生成视频的动作更灵动,镜头更多样,表情更丰富,细节更丰满。
并且生成的视频可同时存在主体的大动态与镜头的炫酷切换。支持变焦、环绕、平摇、缩放,目标跟随等超多镜头语言,灵活控制视角。
例如下面这则视频,画面中两位主角前后景的变焦切换非常自然,感觉就像是真实的摄影师在水中拍摄的画面,而不像以往 AI 生成视频那样呆板生硬。
在内容逻辑方面,豆包视频生成模型还支持一致性多镜头生成,能够 10 秒讲一个完整的故事。它采用全新设计的扩散模型训练方法,成功攻克了多镜头切换时难以保持一致性的困扰,在一个 prompt 的多个镜头切换时,保持主体、风格、氛围和逻辑的一致性,实现导演自由。
例如下面这则动画视频,三个镜头组成了一个简短易懂的场景故事,看起来就像是一个正常的动画电影中截取的片段。
再比如下面这则视频,讲述一个乘坐火箭的人冲撞大楼引发爆炸的场景故事,三段镜头的剪辑呈现出流畅的故事逻辑,还给了主人公紧张的表情特写,调动观众的情绪,让人感叹 AI 这是觉醒了“创作意识”?
此外,豆包视频生成模型还能保证视频高保真和高美感,可生成影视级画面,细节层次丰富,逼真度极高,拥有专业级色彩调和和光影布局,大幅提升画面视觉审美。
比如下面这一则,整个画面的打光、色调、场景、角色的表情都非常精致、细腻,很有电影大片的质感,不说的话谁能想到这是 AI 生成的视频?
同时其深度优化的 Transformer 结构,大幅提升了视频生成的泛化能力,支持包括黑白、3D 动画、2D 动画、国画、厚涂等多种风格,包含 1:1、3:4、4:3、16:9、9:16、21:9 比例,带你领略更自由的世界。
可以看到,豆包视频生成模型的表现确实是相当惊艳的,无论是语义理解能力、多个主体运动的复杂交互画面,还是多镜头切换的内容一致性等方面,都可以做到接近专业人类视频工作者的水平,如果不说是 AI 生成的,可能大家都很难发现。
而能做到这一点,对于字节跳动以及火山引擎来说,其实完全在意料之中。
首先在“视频”能力方面,本就是字节跳动的优势赛道。火山引擎不仅是抖音计算服务的提供方,更是国内众多视频、直播等业务背后的可靠支撑,在长年应对视频业务流量、时延、稳定性等各种严苛的挑战中,沉淀下来独树一帜的技术能力。
而在 AI 方面,即大模型的能力,有火山引擎的支撑,字节跳动豆包大模型无论在算力、算法以及数据、场景等方面都有非常充沛的资源。具体到本次豆包视频生成模型上,我们也能看到字节跳动在视频大模型技术研发的不断投入和创新。比如他们采用了高效的 DiT 融合计算单元,还全新设计了扩散模型的训练方法,来实现一致性多镜头的生成。此外他们还深度优化了 Transfomer 结构,大幅提升了视频生成的泛化能力。
-
小度全新AI硬件将于百度世界大会发布丨智谱AI、即梦AI上线新一代视频生成模型丨OpenAI安全系统团队负责人离职
【AI奇点网2024年11月11日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-08 11:46:33 -
字节跳动内测豆包通用图像编辑模型SeedEdit丨Grok聊天机器人免费版内测丨月之暗面Kimi创始人被提起仲裁
【AI奇点网2024年11月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-08 11:25:01 -
李彦宏:文心大模型日调用量超15亿丨百度发布文心「iRAG」文生图技术丨小度AI智能眼镜发布,搭载大模型边走边问
【AI奇点网2024年11月13日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-08 10:58:46 -
巧妙利用这两个AI产品,让你的国庆出行没有废片
这两天就有朋友来问我,有没有那种能修图的AI,就是扩图+消除啥的傻瓜好用的。大家大概的需求总结一下其实就两,AI消除+AI扩图。
2025-01-08 10:34:49 -
OpenAI初步谈妥融资70亿美元:最大金主微软追加投资10亿,苹果退出
据华尔街日报报道,苹果公司退出了对 OpenAI 的新一轮融资谈判,而微软则计划向 OpenAI 追加约 10 亿美元的投资。
2025-01-08 10:14:21 -
详解Meta全新大模型Llama 3.2系列:多模态视觉识别能力媲美OpenAI GPT-4o
Meta公司推出了Llama 3 2,也是它首款能够理解图像和文本的旗舰视觉模型。包含中型和小型两个版本,以及更轻量化可用于手机端侧的纯文本模型。
2025-01-08 09:46:43
-
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
本期就ChatGPT的这次更新再次将完全新人使用指南提上日程,并对此次更新做些设想和想象。希望大家喜欢!
2024-12-19 07:41:20 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
openpose如何自定义角色_个性化角色姿势怎么定制_Controlnet深度解析
在设计角色姿势时,如何使用openpose进行姿势自定义,以及如何通过拍摄照片或使用第三方后期软件?同时,虚幻引擎对于角色姿势的编辑也很重要,本视频就并展示了如何使用优异商城中的免费资源来创建人物角色。
2024-12-19 11:43:51