开局一张图,内容AI编:阿里发布人物肖像神态表情AI短视频生成模型EMO:AI小姐姐唱跳RAP,全由你做主
2月28日,阿里巴巴人工智能团队发布了基于音频驱动的肖像脸部表情神态动作视频生成框架EMO(Emote Portrait Alive)。
顾名思义,也就是「生动的肖像神态」。
从架构命名就很直觉,这款模型架构是用于生成人物表情的。
简单感受一下,给你一点小小的AI影像震撼:
你可以让赫本演唱一曲英国歌手艾德·希兰的《Perfect》,随着歌曲旋律,她会做出挑眉、皱眉等细微的表情变化。
一位AI绘画模型绘制的女孩,她生动地表演了一首陶喆的《Melody》,音频来自女歌手宁艺卓翻唱的版本。在唱到一些高音部分时,“她”甚至还会做出皱鼻子等鼻腔共鸣发力的表情。
除了国语歌,粤语歌也能轻松对上口型。
下面这条演示视频是张国荣翻唱陈奕迅的《无条件》。
让二次元小姐姐动起来,可能是最快得到应用的领域。
比如,你可以让动画《进击的巨人》中的角色Ymir Fritz亲自演唱动画片尾曲《衝撃》。与真人和3D人物相比,纸片人的表情管理更沉稳一些。
在翻唱Kpop歌曲《SOLO》时,这位AI生成的数字女孩十分投入,面部的轮廓线条也会随着口型变化而变化。
唱到动情处,AI生成的蒙娜丽莎还会闭上双眼,恰似沉浸在音乐旋律中。
如果想听RAP,小李子可以用18岁的脸庞为你演绎美国说唱歌手埃米纳姆的《GODZILLA》。
虽然中间偶尔出现“翻白眼”等瑕疵,但总体拟合程度还是很高的。
在生成说话视频上,EMO同样能为角色注入活灵活现的神韵。
例如这条蒙娜丽莎讲话的视频,开头一清嗓子,那个神韵就立马拿捏住了。
,时长00:26
虽然蒙娜丽莎初始设定就没有眉毛,但EMO还是让她的“眉骨部位”随着语调做出不同神态反应,连双下巴都灵动了起来。
下面这条Ymir Fritz说话视频中的音频来自游戏《尼尔:机械纪元》。
,时长00:26
借助AI生成二次元的人物形象,然后导入EMO让其开口说话,这样的工作流很可能会在不远的将来,成为游戏开发工作室的标配。
EMO还扩大了不同故事背景下人物“二创”的可塑性。
例如,你可以看到高启强模仿罗翔老师讲刑法。
坤哥说起了郭德纲老师的相声……唉哟,你干嘛~(手动调大音量)?
也可以看到小丑抢死对头台词,演绎《蝙蝠侠:黑暗骑士》中的经典台词。
最近的两个月,阿里在人像视频生成方面做出了诸多建树,让未曾学过舞蹈的普通人也可以轻松打造自己的舞蹈视频。
这次,阿里的创新性技术架构,让用户只需上传一张参考的图像和一段声音音频用于解析,该框架能够自主生成具有高度真实感、丰富面部表情和头部姿势的带配音肖像视频。
具体来说,阿里的人像视频带配音生成框架EMO有以下几个特性:
在较少的资源条件下利用音频视频扩散模型生成富有表现张力的肖像视频
表情生动,动作精准:EMO重塑AI视频生成
技术奇迹:一张图片+声音,EMO让肖像视频活灵活现
告别传统:EMO的音频视频扩散模型,开启人像视频新纪元
提供一张图片生成肖像说话视频,这个事情并不新鲜,但是能做到像阿里这么自然流畅在业内尚属首次。
不仅如此,既能生成生动的表情神态,还能出现各种人类说话摇头晃脑的头部姿态,人物讲话的唇形与配音完美吻合匹配,同时还能根据需求的时长来控制生成视频的长度。
阿里再次实现了国内企业在大模型技术应用方面的“遥遥领先”。
EMO框架的实现逻辑
通过这张示意图,我们大致可以将EMO框架的AI生成,分为两个主要阶段:
在第一阶段,是为了给原始图像进行特征标记,使用ReferenceNet从用户提供的参考图像和运动关键帧中提取人物特征。
接着进入第二阶段,在扩散过程阶段我们用到了Diffusion Process模型,接入一个预训练的音频编码器对用户提供的音频嵌入进行处理。
面部区域的遮罩与多帧噪声相结合,以指导人物面部图像的逐帧生成,并且保持高度一致性。然后,主干网络被用来执行去噪操作。
在主干网络内部,阿里引入了两种提升一致性的注意力机制:Reference-Attention和Audio-Attention。
这两种机制分别对于维持角色的独特性和调节角色的动作至关重要。此外,还使用了时间模块(Temporal Modules)来处理时间维度的视频帧排序,以及调整面部神态的运动速度。
还有一些其他的精彩视频,比如这个令EVA印象最深刻的——让OpenAI Sora模型生成的网红日本街头漫步女子开口唱歌——Sora本ra「活了」。
EMO令全球创**好者感到振奋
阿里EMO上线仅仅一天,目前这一项目已经火爆全网。
日本的AI技术博主KAJI表示:
阿里巴巴推出了一款有趣的人工智能架构,当上传静态图片和声音源时,它就能唱歌和说话,表现感染力很强。阿里正在进行大量研究,重点关注AI在娱乐方面的应用,例如其舞蹈视频生成人工智能。
-
开局一张图,内容AI编:阿里发布人物肖像神态表情AI短视频生成模型EMO:AI小姐姐唱跳RAP,全由你做主
2月28日,阿里巴巴人工智能团队发布了基于音频驱动的肖像脸部表情神态动作视频生成框架EMO(Emote Portrait Alive)。
2025-02-11 15:18:48 -
vivo发布第三批蓝心大模型公测机型名单,共计25款包括vivo与iQOO系列:vivo X80与iQOO 9系列在列
AI奇点网2月29日报道丨vivo正式对外发布,第三批蓝心大模型公测机型名单如下,包括vivo与iQOO系列手机,共计25款机型。
2025-02-11 14:52:04 -
库克披露苹果年内将推出一系列AI新功能丨Meta Llama 3将于年中推出丨李彦宏:文心大模型日调用量超5000万
【AI奇点网2024年3月1日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-11 14:24:40 -
马斯克怒告OpenAI是想借题发挥,揭开Ilya Sutskever看到的东西?125万亿参数的「Q*」大模型细节曝光
现在,马斯克起诉OpenAI案的最大未解之谜,就集中在了「Ilya究竟看到了什么」上。他看到的东西让OpenAI内部大震荡,所有新模型推出计划被削弱和延期。
2025-02-11 14:02:08 -
Claude 3发布,性能超越GPT-4丨魅族发布「AI开放终端」魅族21 Pro丨英伟达成为全球市值第三的上市公司
【AI奇点网2024年3月5日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-11 13:39:15 -
全球最强大模型一夜易主,GPT-4被全面超越,Claude 3正式发布!
Anthropic刚刚官宣:Claude 3来了!作为OpenAI最强竞争选手,此次它发布的新模型家族,以最强版Claude 3 Opus为代表,“已经实现了接近人类的理解能力”
2025-02-11 13:16:06
-
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34 -
AI绘图模型测评_Meta Imagine发布_Meta Imagine最新地址
针对Meta Imagine,Midjourney,Adobe Firefly,Dalle,这四个我心目中的比较大的AI绘图模型测评。我会从细节质量、审美(构图色彩等)、风格多样化、语义理解这四个维度来评测,每个维度3个Prompt,同时每个Prompt我会在AI绘图模型中roll3次,取效果最具有代表性的那个图,尽量减少偏见。
2024-12-13 17:44:01 -
快手AI文生视频大模型【可灵】首发实测:这可能将成为真正意义的第一款「中国版Sora」
昨天,6月6号,是快手的13周年生日。在这一天,所有AI圈的人都想不到,快手在13周年之际,没有任何预兆、没有任何宣传,直接发布了他们的AI视频大模型。可灵。
2024-12-13 20:45:55 -
Stable Diffusion 3最新模型测评丨SD3模型ComfyUI流程简单搭建
由于前不久StabilityAI开放了SD3新模型的使用权,这期我们就简单聊聊这款新模型的使用方法,以及StabilityAI对于SD3模型的发布策略,和未来的发展预期!如果本期讯息对大家有所帮助,就点赞关注支持欧阳一下吧!
2024-12-13 21:10:24 -
科大讯飞星火大模型3.0实测:高能进化,给AI注入灵魂,部分能力与GPT-4旗鼓相当
科大讯飞星火认知大模型3 0正式发布。星火3 0的整体性能已经超越ChatGPT,部分能力与GPT-4旗鼓相当。科大讯飞立下又一个Flag,星火4 0要对标GPT-4
2024-12-13 22:43:43 -
高考大模型测评_豆包文科成绩领先
什么?好多大模型的文科成绩超一本线,还是最卷的河南省???没错,最近就有这么一项大模型“高考大摸底”评测走红了。河南高考文科今年的一本线是521分,根据这项评测,共计四个大模型大于或等于这个分数,其中头两名最值得关注:
2024-12-13 23:27:45 -
ChatGPT、阿里通义等AI机器人参加今年高考出分:干翻90%考生,有一科全员不及格
6月19日,上海人工智能实验室和司南评测体系发布了国内首个针对AI大模型参与2024高考「语数英」三科目的全卷解题能力测试的结果。
2024-12-13 23:42:30 -
深度解析丨ControlNet模型的工作原理与应用场景(附案例解析)
大家好,我是言川。本期文章是2024年的第一篇文章,也是2023年农历的最后一篇文章。截至这篇文章完成时,距离春节也只有最后一周的时间了,我无法单独向支持我的朋友们传达祝福之意。所以在本篇文章的开头,向大家说一些祝福之词
2024-12-18 09:12:30 -
AI绘画进阶入门ComfyUI系列教程丨第八章,只需一步极速出图,实时绘画!!
这期继续为大家分享comfyUI的相关知识LCM和Turbo的极速出图方法,希望对大家有所帮助!
2024-12-18 10:37:06