腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法
腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法,并支持生成背景音效及 2K 高质量视频。
基于图生视频的能力,用户只需上传一张图片,并简短描述希望画面如何运动、镜头如何调度等,混元即可按要求让图片动起来,变成 5 秒的短视频,还能自动配上背景音效。此外,上传一张人物图片,并输入希望“对口型”的文字或音频,图片中的人物即可“说话”或“唱歌”;使用“动作驱动”能力,还能一键生成同款跳舞视频。
目前用户通过混元 AI 视频官网(https://video.hunyuan.tencent.com/)即可体验,企业和开发者可在腾讯云申请使用 API 接口使用。
此次开源的图生视频模型,是混元文生视频模型开源工作的延续,模型总参数量保持 130 亿,模型适用于多种类型的角色和场景,包括写实视频制作、动漫角色甚至 CGI 角色制作的生成。
开源内容包含权重、推理代码和 lora 训练代码,支持开发者基于混元训练专属 LoRA 等衍生模型。目前在 Github、HuggingFace 等主流开发者社区均可下载体验。
混元开源技术报告披露,混元视频生成模型具备灵活的扩展性,图生视频和文生视频在相同的数据集上开展预训练工作。在保持超写实画质、流畅演绎大幅度动作、原生镜头切换等特性的基础上,让模型能够捕捉到丰富的视觉和语义信息,并结合图像、文本、音频和姿态等多种输入条件,实现对生成视频的**度控制。
目前,混元开源系列模型已经完整覆盖文本、图像、视频和 3D 生成等多个模态,在 Github 累计获得超 2.3 万开发者关注和 star。
附:混元图生视频开源链接
Github:https://github.com/Tencent/HunyuanVideo-I2V
Huggingface:https://huggingface.co/tencent/HunyuanVideo-I2V
-
腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法
腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法,并支持生成背景音效及 2K 高质量视频。 基于图生视频的能力,用户只需上传一张图片,并简短描述希望画面如何运动、镜头如何调度等,混元
2025-04-17 09:59:13 -
百度文心大模型 V3.5 训练速度提升 2 倍 | 华为 7 月公布盘古大模型升级 | 360周鸿祎表示很多企业只需百亿级大模型
【AI奇点网2023年6月27日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-04-17 09:51:34 -
比尔盖茨称:人工智能将助力小学教学、加速学生学习、解决师资短缺问题
微软联合创始人比尔盖茨表示,仅需18个月的时间,生成式人工智能聊天机器人就能教会孩子们阅读。人工智能的应用已经开始证明它可以加速教师对学生的影响,并且能够解决师资短缺的难题。本文将探讨人工智能在小学教学中的潜力,以及如何实现个性化教育和提高教学效率。
2025-04-17 09:30:12 -
中国人工智能正在蓬勃发展:从聊天机器人到智能玩具
中国正在积极推动人工智能产业的发展,目标是到 2030 年成为全球科技强国。以 DeepSeek 为代表的本土人工智能公司已取得显著成就,展示了中国在该领域的竞争力。随着政府投资和教育系统的支持,人工智能在中国的
2025-04-17 09:29:57 -
谷歌 DeepMind 推出两款新型 AI 模型,旨在帮助机器人完成更多现实世界中的任务
近日谷歌 DeepMind 推出两款新型 AI 模型,旨在帮助机器人完成更多现实世界中的任务。 其中一款名为 Gemini Robotics,是一款视觉语言行动模型,能够使机器人在没有进行过专门训练的情况下理解新的情境。 Gemini
2025-04-17 09:06:16 -
360周鸿祎:大部分企业只需要百亿参数模型即可,多了浪费
本文讨论了构建安全可信的人工智能以及人工智能赋能百行千业的主题。文章提到了360自研的认知大模型智脑在该领域的探索,并分享了一些实践中得到的经验和思考。
2025-04-17 09:05:48
-
Music To Image音生图工具是什么_AI音频生成图像工具有哪些_AI音生图工具有哪些_Music To Image怎么用
「Music To Image」是一款AI音频生成图片的多模态转换工具,它的本质生成逻辑是音频→文本提示词→图像。
2024-12-17 00:06:33 -
跟人类学孬了!联合国:AI大模型的回复存在严重的性别偏见、种族偏见与刻板印象等问题
报告指出,女性在大模型的描述中,从事“家务劳动”的频率是男性的4倍,而男性名字则与“商业”、“管理层”、“薪水”和“职业”等词汇联系在一起。
2025-02-08 12:52:22 -
?新年新气象!小红书推出AI人物头像绘图模型「InstantID」:轻松打造龙年新春头像,一键免费焕新
近日,小红书团队推出了一款AI头像生成工具「InstantID」,直接刷屏了。使用门槛较低。只需要用户提供一张自拍照就可以轻松生成一大波风格迥异的照片。
2025-02-13 14:27:20 -
阿里旗下夸克APP上线“AI学习助手”:内置海量试题,拍照一键解疑,巧用大模型帮助当代学子高效备考、快速进阶
夸克“AI学习助手”采用夸克宝宝的虚拟形象为用户进行题目讲解。基于大语言模型和视觉技术,AI智能讲解能够给用户提供 “考点分析”、“详解步骤”、“答案总结”等详细内容。
2025-02-18 16:08:16 -
AI概念股表现强势 Arm Holdings(ARM.US)涨超14%
周三,AI概念股表现强势,Arm Holdings(ARM US)涨超14%,甲骨文(ORCL US)、戴尔科技(DELL US)涨超7%,C3 ai(AI US)涨超6%。消息面上,美东时间周二,在当晚的白宫活动中,特朗普宣布,OpenAI、软银和甲骨文将成立
2025-02-25 17:23:06 -
微博推出“明星AI情感伴聊”:模拟你喜欢的爱豆来陪你聊天,演员李兰迪已进驻
用户向明星发送私信,专属的AI助手将模拟明星的聊天方式和风格进行自动回复,以情感陪伴提升用户体验。微博将陆续邀请更多明星开启该功能。
2025-04-04 10:51:09 -
AI绘画ComfyUI进阶教学丨Mask遮罩基础运用,IPA+CN+Lora+prompts+遮罩
本期开始正式进入遮罩相关的高级应用,这里我们会尝试为不同组件应用不同区域的遮罩,实现构图、效果的不同区域实现。希望本期内容能对大家有所帮助和启发,最后如果喜欢欧阳的教程就千万不要忘记支持一波啦!!!
2024-12-17 09:48:56 -
Suno ai全面使用指南丨AI音乐GPT时刻来临,人人都能成为音乐大师!
最近,AI 音乐的 ChatGPT 时刻来临啦!一款音乐 AI神器——Suno V3发布,引发了广泛关注。这款AI音乐工具凭借其独特的创新,持续占据各大平台热搜榜首。
2024-12-17 20:54:47 -
2D转3D成熟倒计时!2023(最全)AIGC-3D技术总结,一个视频搞懂AI生成3D模型
2023年我们见证了AI生成图像的快速进化,同样在这一年,AI生成3D虽然相对之下默默无闻,但也出现了很多重要的技术,实现了从0到1的突破。相信2024年一定会迎来AI生成3D技术的突飞猛进。这个视频我们一起看一下2023年AI生成3D有哪些重要工作,提前了解。为后面的成熟做好准备。
2024-12-18 14:25:53 -
midjourney新功能_style tuner应用教程_MJ最新教程
MJ的新功能style tuner,终于可以训练自己的模型风格了,在我快速模式恢复之后立马尝试了一遍,操作步骤简单,比SD容易上手太多,我来代练一遍,大家跟上节奏
2024-12-19 06:34:05