字节跳动推出超高清文生视频模型,效果比Gen-2更强!
字节跳动的研究人员开发了一种超高清文生视频模型MagicVideo-V2.
MagicVideo-V2公布的实验评测数据显示,视频的高清度、润滑度、连贯性、文本语义还原等方面,比目前主流的文生视频模型Gen-2、Stable Video Diffusion、Pika 1.0等更出色。
这是因为,MagicVideo-V2将文生图像、图像生成视频、视频到视频和视频帧插值4种功能整合到一个模型中,解决了之前面临的4大难题。
论文地址:https://arxiv.org/abs/2401.04468
项目地址:https://magicvideov2.github.io/
随着Gen-2等模型的出现,文生视频领域实现飞速发展,尤其是在这个短视频时代被大量用户应用。但是在生成的过程中,模型经常面临4个难题。
一个女巫正在制作药品
视频不美观,由于多数是采用公开训练数据,生成的视频经常会出现劣质的情况;内容不一致,在生成视频的过程中,无法精准还原文本提示的内容;
视觉质量和清晰度较差:如何将用户的文本提示,转化为高清、精准高质量视频很难;
视频运动不连贯,多数模型无法在生成的关键帧之间,插入额外的帧,使视频的运动更加自然和连贯性。
所以,字节跳动的研究人员直接将4个模块整合在MagicVideo-V2模型中,一一解决了这些难题。
文生图像
文生图像模块(Text-to-Image, T2I)主要用于接收用户提供的文本描述作为输入,并生成一个1024×1024像素的图像作为视频生成的参考图像。这有助于增强视频的内容和美学风格。
T2I模型采用基于扩散的生成模型,通过多个迭代步骤逐渐生成高质量的图像,同时可以学习到从文本描述到图像的映射关系,从而生成与文本描述相符的精美图像。
图像到视频
该模块基于SD1.5模型,通过人类反馈来提高模型在视觉质量和内容一致性方面的能力。图像到视频模块还使用了一个参考图像嵌入模块,用于利用参考图像。
具体来说,研究人员使用了一种外观编码器来提取参考图像的嵌入,并通过交叉注意机制将其注入到图像到视频模块中。
这样,图像提示可以有效地与文本提示解耦,并提供更强的图像条件。此外,使用了潜在噪声先验策略,通过在起始噪声潜变量中引入适当的噪声先验技巧,保留部分图像布局,改善帧之间的时间连贯性。
视频到视频
该模块进一步对低分辨率视频的关键帧进行优化和超分辨率处理,以生成高分辨率的视频。
简单来说,就像照相机的美颜功能,会根据图像内容自动生成更丰富的像素级细节,增强整体逼真度与纹理细节。
这也是比其他文生视频模型更高清的重要原因之一。
视频帧插值
该模块可以在生成的视频关键帧之间插入额外的帧,增加视频的平滑性、动态感以及连贯性。
主要通过分析相邻关键帧之间的运动信息,以及参考图像和文本描述,插入中间帧,使视频的运动更加连续和自然。
测试数据
为了评估 MagicVideo-V2的性能,研究人员使用了人类评估和目前最先进的 T2V 系统两种评估方法。
分别由61位评估者组成的小组对 MagicVideo-V2 和另一种 T2V 方法进行了 500 次并排比较。
在每一轮比较中,每位投票者都会看到一对随机的视频,包括基于相同文本提示的一个我们的视频和一个竞争对手的视频。他们会看到三个评估选项--"好"、"一样 "或 "坏"--分别表示偏好 MagicVideo-V2、无偏好或偏好竞争的 T2V 方法。
投票者需要根据他们对三个标准的总体偏好进行投票:1) 哪种视频具有更高的帧质量和整体视觉吸引力。2) 哪种视频的时间一致性更高,运动范围和运动连贯性性更好。
3) 哪个视频的结构错误或不良情况更少。测试结果表明,MagicVideo-V2 明显更受评估者青睐。
-
字节跳动推出超高清文生视频模型,效果比Gen-2更强!
近日,字节跳动的研究人员开发了一种超高清文生视频模型MagicVideo-V2 MagicVideo-V2公布的实验评测数据显示,视频的高清度、润滑度、连贯性、文本语义还原等方面,比目前主流的文生视频模型Gen-2、Stable Video Diffusion、Pika 1 0等更出色。
2025-02-14 10:56:31 -
美图出资近3亿元收购站酷网:国内AIGC圈首笔大宗收购,老牌设计师在线社区焕发「第二春」
国内AIGC圈首笔大宗收购诞生啦!2月2日,美图公司在港股发布公告,宣布该公司将收购国内知名的视觉设计师在线社区网站「站酷网」的全部股本。
2025-02-14 10:31:03 -
hugging face开源平替_Hugging Chat Assistant最新上线
抱抱脸新推出了OpenAI的GPT商店开源平替,“Hugging Chat Assistant”,也瞄准了让用户免费制定自定义聊天机器人。该软件完全免费,无需像OpenAI那样不开会员就被拒之门外。
2025-02-14 10:04:00 -
Hugging Face推出AI聊天助手丨ChatGPT与Adobe Firefly AI上架苹果Vision Pro头显平台的应用
【AI奇点网2024年2月5日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-13 18:12:22 -
通义千问APP上线拜年新玩法丨钉钉登陆苹果Vision Pro平台丨传闻谷歌Bard即将更名为Gemini
【AI奇点网2024年2月6日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-13 17:45:59 -
钉钉发布苹果Vision Pro平台原生应用:以数字人形象开会、支持手势在PPT上进行标注、动态表情包等特性功能
钉钉国际发布消息称,已为苹果 Vision Pro 头显推出原生应用,首批加入苹果 Vision Pro 应用商店。
2025-02-13 17:22:38
-
阿里“通义听悟”升级:支持6小时超长视频内容解析提问,还可一键生成巨幅思维导图
阿里通义大模型应用产品“通义听悟”发布多项新功能,上线音视频问答助手“小悟”、一键 AI 改写、思维导图生成等六大功能。
2025-02-06 16:53:33 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34 -
腾讯发布混元大模型原生AI应用「腾讯元宝」,已接入微信搜一搜,覆盖公众号内容生态
腾讯宣布旗下的主力大模型混元大模型全面升级,基于混元大模型打造了首个面向消费用户的APP「腾讯元宝」正式上线。
2025-01-21 14:37:34 -
硅谷版“罗密欧与朱丽叶”:马斯克vs奥特曼的爱恨情仇丨从兄弟同心到对薄公堂,8年发生了什么?
硅谷版“罗密欧与朱丽叶”故事正在上演,马斯克是奥特曼的引路人,但让OpenAI获得今天的成功,奥特曼成为科技圈的新晋网红,决定性因素在于微软的入局。
2025-02-08 13:18:00 -
GPT-4上线一周年纪念日,OpenAI投资的机器人闪亮登场,这是我们目前能看到最接近终结者的样子
一家OpenAI投资的机器人初创公司Figure AI发布一段人形机器人的演示视频,一台基于GPT-4大模型开发,被命名为「Figure 01」的机器人横空出世。
2025-02-08 15:55:02 -
AI绘图模型测评_Meta Imagine发布_Meta Imagine最新地址
针对Meta Imagine,Midjourney,Adobe Firefly,Dalle,这四个我心目中的比较大的AI绘图模型测评。我会从细节质量、审美(构图色彩等)、风格多样化、语义理解这四个维度来评测,每个维度3个Prompt,同时每个Prompt我会在AI绘图模型中roll3次,取效果最具有代表性的那个图,尽量减少偏见。
2024-12-13 17:44:01 -
快手AI文生视频大模型【可灵】首发实测:这可能将成为真正意义的第一款「中国版Sora」
昨天,6月6号,是快手的13周年生日。在这一天,所有AI圈的人都想不到,快手在13周年之际,没有任何预兆、没有任何宣传,直接发布了他们的AI视频大模型。可灵。
2024-12-13 20:45:55 -
Stable Diffusion 3最新模型测评丨SD3模型ComfyUI流程简单搭建
由于前不久StabilityAI开放了SD3新模型的使用权,这期我们就简单聊聊这款新模型的使用方法,以及StabilityAI对于SD3模型的发布策略,和未来的发展预期!如果本期讯息对大家有所帮助,就点赞关注支持欧阳一下吧!
2024-12-13 21:10:24 -
科大讯飞星火大模型3.0实测:高能进化,给AI注入灵魂,部分能力与GPT-4旗鼓相当
科大讯飞星火认知大模型3 0正式发布。星火3 0的整体性能已经超越ChatGPT,部分能力与GPT-4旗鼓相当。科大讯飞立下又一个Flag,星火4 0要对标GPT-4
2024-12-13 22:43:43 -
高考大模型测评_豆包文科成绩领先
什么?好多大模型的文科成绩超一本线,还是最卷的河南省???没错,最近就有这么一项大模型“高考大摸底”评测走红了。河南高考文科今年的一本线是521分,根据这项评测,共计四个大模型大于或等于这个分数,其中头两名最值得关注:
2024-12-13 23:27:45