智谱AI开源CogVideoX视频生成模型丨“清影”同源,将成为国产Sora
大半夜的,大洋对岸不卷,国内公司卷起来了。
我真的想睡觉,真的。
起因是我睡觉之前,在看Github的时候,无意间看到THUKEG这个号,更新了一个项目。
CogVideoX。
网址在此:https://github.com/THUDM/CogVideo
THUKEG算是智谱的官号,而CogVideoX,则是前两周很火的智谱的第二世代AI视频清影的基模型。
用最通俗的话理解就是,CogVideoX等于GPT4o,而清影等于ChatGPT,你就可以简单的理解为,一个是模型,一个是基于模型做的产品,所以其实可以画个等号。
前两周,第二世代的AI视频大战,在已有的三幻神Runway、可灵、Luma的基础上,Pixverse上线了V2版本,Vidu的模型也千呼万唤始出来。
而作为大模型领域最明星的AI公司,智谱,也加入了这场AI视频的混战,发布了他们的DiT视频产品,清影。
这个产品,在他们的AI助手智谱清言上,就能用。
但是非常坦率的讲,我没有写它,是因为我觉得,在生成效果上,确实跟可灵、Runway,还是有一定的差距。
而在发布清影的两周后的今天,他们决定,把CogVideoX,开源了。
那就值得,吹一波了。
CogVideoX模型下载地址:
https://huggingface.co/THUDM/CogVideoX-2b
现在主流的AI视频,全都是闭源的,有一个开源的Open-Sora,但是说实话,效果也差强人意。
而清影,效果虽然跟主流的闭源模型尚有差距,但是在跑一些内容上,至少是可用的状态。
这一次开源的,我大概翻了下,开源的是一个CogVideoX-2B的小模型。
推理需要18G显存,也就是说,在有单卡3090或者4090的时候,就可以直接本地跑视频了,不需要再烧钱了,不过看峰值会到36G,大概率会爆显存。
不过他们自己也说了,马上就会优化。
不过我只有一张小*4060.显存就8G,你优化完我也跑不动。4090.说实话,也真的没钱买= =
啥时候AI视频模型,也跟SD1.5一样,能普惠众生人人皆可跑就好了。
这个2B的模型,视频长度是6秒,帧率为8帧/秒,视频分辨率为720*480.
这参数,有一股子即梦初代的那感觉了。
我放几个他们官方的case(其实你去清影上跑几个是差不多的)
一艘精致的木制玩具船,桅杆和船帆上雕刻着复杂的图案,在模拟海浪的蓝色长毛绒地毯上平稳地滑行。船身漆成浓郁的棕色,并带有小窗户。地毯柔软而有质感,提供了一个完美的背景,就像一片广阔的海洋。船的周围环绕着各种玩具和儿童用品,暗示着一个充满童趣的环境。这个场景捕捉到了童年的天真和想象力,玩具船的旅程象征着在异想天开的室内环境中的无尽冒险。
镜头跟在一辆白色复古越野车后面,车顶有黑色行李架,越野车在陡峭的山坡上沿着松树环绕的陡峭土路快速行驶,轮胎上的尘土飞扬,阳光照在越野车上,越野车在土路上快速行驶,给整个场景投下了温暖的光辉。土路缓缓弯向远方,看不到其他车辆。道路两旁的树木都是红杉,还有零星的绿色植物。从后方看,汽车轻松地沿着弯道行驶,仿佛在崎岖的地形上行驶。土路本身被陡峭的丘陵和山脉环绕,头顶是晴朗的蓝天和飘渺的白云。
在一个饱受战争蹂躏的城市,废墟和残垣断壁诉说着满目疮痍,在这个令人心碎的背景下,一个凄美的特写镜头定格了一个年轻的女孩。她的脸上沾满了灰烬,无声地证明着周围的混乱。她的眼睛里闪烁着悲伤和坚韧,捕捉到了这个因冲突而失去天真世界的原始情感。
推理大概是这样,但是开源出来,我更期待的,其实是微调和插件的生态。
比如现在大家都在用的AI绘图SD的1.5模型,基模其实做的就跟一坨屎一样,但是毕竟是开源的,一堆大神基于SD1.5.做出了非常**的模型,比如Majic、DreamShaper、Anything等等。
而CogVideoX,也是可以微调的。
想起了在WAIC上,阶跃星辰跟上影做的AI视频模型,他们用了200分钟的葫芦娃素材,就调了一个葫芦娃大模型。
你出的所有的东西,都是葫芦娃风格,你也不用费劲巴拉的去搞什么角色一致性了,我输入大娃,那就出来的就是大娃,我写**和蛇精在一起哈啤酒,那就是他两。
而现在,CogVideoX开源,我们可以微调的情况下,一些用AI做短剧和长剧集的,完全可以试着微调一个自己的视频大模型,来个性化风格和角色。
因为我自己一直觉得,文生视频的上限和表演动态,是比图生视频要高很多的,但是两个最大的坎是风格一致性和角色一致性,如果可以微调,那也是有很多办法可以去解决了。
CogVideoX-2B的微调,需要的显存是40G,普通的显卡不行了,得上A6000这种渲染卡了。
不过毕竟是视频模型,不说普惠到普通大众,但是对于一些初创公司和小企业,这门槛几乎就是约等于0.
因为,这是开源的,他们不需要再从0开始花费无数资金去做一个自己的大模型,去趟这一趟坑,他们只需要,买点本地的卡,加起来也就几万十几万,然后,就可以本地微调了。
我也一直相信,开源的未来,一定比闭源强。
扎克伯格在前段时间发LLaMa3.1 405B的那天晚上,在Facebook上发了一封万字公开信。
其中有一段话让我印象很深刻。
翻译过来是:
我坚信开源是实现积极AI未来的必要条件。AI相比任何现代技术都有更大的潜力提升人类的生产力、创造力和生活质量,并加速经济增长,同时推动医疗和科学研究的进步。开源将确保世界上更多的人能够享受AI带来的益处和机会,防止权力集中在少数公司手中,使得这项技术能够更加均衡、安全地在全社会推广。
防止权力集中在少数公司手中,使得这项技术能够更加均衡、安全地在全社会推广。
开源,就是最好的手段,闭源并不会带来技术平权,但是开源会,因为AI不是一个娱乐工具,他是生产力工具,他的推动,主要都来自于公司、研究机构等等。
而每个公司,在使用AI时,都有三个很大的痛:
1. 他们需要训练、微调和提炼他们自己的模型。
2. 他们需要保护他们的私有数据。
3. 他们希望把自己的AI变成长期标准的生态系统。
这一切,汇总起来,就一句话:
我们需要能控制自己的命运,而不是把命交给别人。
而在国内,智谱是我觉得很特别的公司,它很像OpenAI,又有着Meta的气质。
要知道Meta的商业模式,和一些大模型公司比如OpenAI的商业模式完全不一样,他们不靠卖大模型的使用权收钱,所以开源其实对于Meta来说,并没有多大的影响。
但是智谱不一样,智谱是一家大模型公司。
但是在这样的考量下,他们依然,毅然决然的开源了。
可能他们也像Meta一样,为了那个很崇高的信仰:“使得这项技术能够更加均衡、安全地在全社会推广。”
除了CogVideoX外,他们还开源过N多东西。
去他们的Github上翻一下,你就会发现很多惊喜:
https://github.com/THUDM
我爱每一个愿意开源的公司。
我期待未来某一天,无数的开发者在CogVideoX的基础上,开发出了各种各样的插件和微调模型,每一个影视、短剧、广告等等等各种跟视频有关的行业的公司,也都有自己N多的模型和各种各样的视频生成工作流。
就像SD在各家企业里,繁荣昌盛。
我佩服智谱。
这不仅是一个技术的决定,更是一种信念的传递。
大洋对岸的灯光渐渐熄灭。
而我们这边的黎明。
正在冉冉升起。
-
智谱AI开源CogVideoX视频生成模型丨“清影”同源,将成为国产Sora
作为大模型领域最明星的AI公司,智谱,也加入了这场AI视频的混战,发布了他们的DiT视频产品,清影。这个产品,在他们的AI助手智谱清言上,就能用。
2025-01-13 12:33:05 -
OpenAI高层剧震,三位高层宣布离职和隐身丨即梦AI推出移动客户端丨Figure发布新一代人形机器人「Figure 02」
【AI奇点网2024年8月7日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-13 12:13:00 -
iPhone 16今秋发布,不会预装「苹果AI」丨「腾讯元宝」上线长文本精读总结功能丨「零一万物」完成新一轮数亿美元的融资
【AI奇点网2024年8月8日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-13 11:45:41 -
2025年Mac新机型全部搭载M4算力芯片丨苹果未来可能对Apple Intelligence收费丨奥特曼晒“五颗草莓”暗示GPT-5
【AI奇点网2024年8月9日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-13 11:23:11 -
最强数学大模型易主!阿里千问新模型成绩超GPT-4o,网友:这才是真“草莓”
最强数学大模型,现在易主!阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3 1-405B,也战胜了GPT-4o、Claude 3 5等一系列闭源模型。而且还会解决竞赛级试题,在GPT-4只能做对一道的AIME 24中,Qwen2-Math答对的题目数量达到了两位数。
2025-01-13 11:01:04 -
马斯克宣布Grok 2即将发布丨小米旗舰机型国际版将接入谷歌Gemini丨科大讯飞发布「讯飞智文」2.0可生成AI-PPT
【AI奇点网2024年8月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-13 10:34:42
-
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
本期就ChatGPT的这次更新再次将完全新人使用指南提上日程,并对此次更新做些设想和想象。希望大家喜欢!
2024-12-19 07:41:20 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
PikaAI怎么用_PIkaAI怎样生成视频_AI视频生成器Pika怎么用_AI视频生成工具Pika教程
Pika这款工具7月份在AIGC界横空出世,被圈内誉为目前“全球最好的文本生成视频AI工具”之一,也被认为是另外一款知名AI视频生成工具Runway的强有力挑战者。
2024-12-25 13:35:53 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
openpose如何自定义角色_个性化角色姿势怎么定制_Controlnet深度解析
在设计角色姿势时,如何使用openpose进行姿势自定义,以及如何通过拍摄照片或使用第三方后期软件?同时,虚幻引擎对于角色姿势的编辑也很重要,本视频就并展示了如何使用优异商城中的免费资源来创建人物角色。
2024-12-19 11:43:51