最新AI视频生成技术_华为、腾讯开源AniPortrait
华为、腾讯的研究人员联合开源了创新视频模型——AniPortrait。
用户通过AniPortrait用音频和人物图片就能自动生成音频同步的视频,例如,让李云龙、新恒结衣、蔡徐坤的图片轻松唱歌、说话。
这与今年2月阿里集团发布的EMO模型,以及谷歌发布的VLOGGER在功能方面几乎一样,但那两个是闭源的。
开源地址:https://github.com/Zejun-Yang/AniPortrait
论文地址:https://arxiv.org/abs/2403.17694
AniPortrait生成的视频
AniPortrait的核心框架主要分为两大块,首先通过AI从语音中提取3D面部网格和头部姿态,然后将这些中间表示作为生成条件,用于生成逼真的人像视频序列。
Audio2Lmk音频提取模块
Audio2Lmk借助了语音识别模型wav2vec 2.0.从原始语音波形中提取丰富的语义表示,精准捕捉发音、语调等细微特征,为后续的面部动作捕捉奠定了基础。
然后,研究人员设计了两个并行的小型网络,分别从wav2vec提取的特征中学习3D面部网格序列和头部姿态序列。
负责3D面部网格预测的是一个仅由两层全连接层组成的极简网络。虽然结构十分简单,但这种设计保证了高效运算,并极大提升了准确性。
为了增强头部姿态与语音的节奏、音调等因素关系更贴切一些,研究人员使用了Transformer解码器来捕捉这种细微的时序关联性。
该解码器的输入是wav2vec2.0提取的语音特征,在解码过程中,Transformer会通过自注意力和交叉注意力机制,自动学习语音与头部姿态之间的内在联系,最终解码出与音频节奏高度一致的头部姿态序列。
在训练阶段,研究人员使用了内部采集的近一小时高质量演员语音作为数据源,加上公开的人脸数据集HDTF。再通过监督学习的方式,提升了从语音到3D面部表情和头部姿态的高精度映射。
Lmk2Video视频生成模块
Lmk2Video的作用主要是将Audio2Lmk捕捉到的3D人脸数据和姿态数据渲染成高分辨率的视频。
Lmk2Video使用了目前在人物生成视频领域比较好的模型AnimateAnyone,能够通过给定的人体姿态序列作为条件,生成高质量、连贯自然的视频。
但是人的面部区域的细节远比身体更复杂,动作幅度也更小,需要极高的精度才能捕捉到微小的嘴型变化和面部肌肉运动。
原版AnimateAnyone的姿态引导模块仅由几层卷积层构成,将人体姿态数据编码后直接融合到主干网络的初级阶段。
这种设计在较大尺度的人体动作上还勉强可行,却难以准确捕捉面部细节。所以,研究人员对AnimateAnyone进行了改良。
他们将图片的人物面部关键点也作为输入,并通过注意力模块与目标关键点序列交互,使网络能更好地理解面部特征与整体外观之间的内在联系,进一步提升动画的精细度和一致性。
此外,为了增强网络对嘴型变化的敏感度,研究人员还将2D关键点渲染成姿态图像时,特意用不同颜**分上下嘴唇,这样网络就能更清晰地感知到微小的嘴型细节和变化趋势。
-
最新AI视频生成技术_华为、腾讯开源AniPortrait
华为、腾讯的研究人员联合开源了创新视频模型——AniPortrait。用户通过AniPortrait用音频和人物图片就能自动生成音频同步的视频,例如,让李云龙、新恒结衣、蔡徐坤的图片轻松唱歌、说话。这与今年2月阿里集团发布的EMO模型,以及谷歌发布的VLOGGER在功能方面几乎一样,但那两个是闭源的。
2025-01-15 14:48:19 -
马斯克官宣:Grok 2大模型将在8月推出丨Runway Gen 3可生成电影级3D巨幅字幕丨「腾讯元宝」上线深度AI搜索
【AI奇点网2024年7月2日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-15 14:26:41 -
Runway最新更新_runway开放Gen-3
7月2日凌晨,著名生成式AI平台Runway在官网宣布,其文生视频模型Gen-3 Alpha向所有用户开放使用。
2025-01-15 14:04:09 -
「苹果AI」功能不会永久免费丨百度发布代码编程助手“文心快码”丨微软Copilot测试安卓手机AI控制插件
【AI奇点网2024年7月3日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-15 13:39:00 -
「苹果AI」功能将来会收费,iPhone 16的AI算力将超过AI PC电脑
彭博记者撰文表示,「Apple Intelligence」不会永久免费,苹果未来将会把这项服务拆分成两部分:一部分将继续免费,但功能有限;另一部分则收费。
2025-01-15 13:15:48 -
AI大模型9.11和9.9那个,_AI大模型测评
没眼看……“9 11和9 9哪个大”这样简单的问题,居然把主流大模型都难倒了??强如GPT-4o,都坚定地认为9 11更大。
2025-01-15 12:50:58
-
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
本期就ChatGPT的这次更新再次将完全新人使用指南提上日程,并对此次更新做些设想和想象。希望大家喜欢!
2024-12-19 07:41:20 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01