MiniMax加入视频生成混战,大模型的尽头是做视频?
在大会讨论环节,闫俊杰提到一个点是,大模型是一个看起来很热,但是也有很多非共识的领域,“到底要做2B还是2C,到底做国内还是做海外,Scaling law到底能不能延续……”等等。尽管有这么多非共识,但视频生成或许是今年各大模型厂商的共识。自今年2月OpenAI发布视频大模型sora后,行业叫得上名字的发布不少,4月生数科技发布视频大模型Vidu,6月快手发布AI视频生成大模型可灵,一周后Luma AI发布文生视频模型Dream Machine,Runway在7月初宣布,文生视频模型Gen-3 Alpha向所有用户开放使用,在世界人工智能大会期间阿里达摩院推出寻光,7月底,爱诗科技发布PixVerse V2,随后智谱正式发布清影视频,8月初,字节即梦AI上架应用商店……一年前市面上还很少有面向公众的文生视频模型,短短几个月内我们目睹了几十款视频生成模型的问世,一位行业人士感慨,过去一年对于AI视频生成来说是一个历史性的时刻。在采访中,第一财经记者问及MiniMax布局视频生成的必要性,闫俊杰表示,本质原因是,人类社会的信息更多体现在多模态内容上,“我们每天看的大部分内容,都不是文字,都是一些动态的内容。你打开小红书都是图文,打开抖音都是视频,甚至打开拼多多买东西,大部分时候也是图片。”⽣活中,⽂字交互只是很⼩的⼀部分,更多的是语⾳和视频交互。因此,为了能够有非常高的用户覆盖度,以及更高的使用深度,作为大模型厂商,唯一的办法是能够输出多模态的内容,而不是只是输出单纯的基于文字的内容,闫俊杰解释,这是一个核心的判断。“只是在之前我们先做出来文字,又做出来声音,很早做出来了图片,现在技术变得更强,(可以)把视频也做出来。这个路线是一以贯之的,一定要能做多模态。” 闫俊杰说。但视频生成赛道很难,仅看OpenAI在年初发布Sora后,至今没有正式对外,也可以窥见行业的一些挑战。一方面,目前的视频生成结果远远达不到用户的预期,模型并不懂物理规则,同时生成过程很难控制。视频、图像、三维的生成类算法会遇到很多结构性和细节性问题,如通常会多长出一样东西或者少一样东西,或者手穿模到人身体里,精细化的视频、尤其是具有物理规则的视频目前很难生成。在采访中,闫俊杰也表示“这件事还挺难的”,否则如此多号称做这个事的公司早做出来了。视频的工作复杂度比做文本更难,因为视频的上下文文本天然很长。例如,一个视频是千万的输入和输出,天然就是一个很难的处理。其次,视频量很大,看一个5秒的视频就有几M,但是5秒看的文字大概100个字,可能都不到1K的数据量,这是几千倍的存储差距。“这里面的挑战在于,之前基于文本建的这套底层基础设施怎么来处理数据,怎么来清洗数据,以及怎么来标注,对视频上都不太适用。”闫俊杰认为,基础设施需要升级,其次就是耐心,做文字有很多开源,如果基于开源来做,自己研发会更快,如果做视频,开源内容没那么多,很多内容做出来也会发现需要重做,需要付出的耐心更大。此前有行业从业者对记者表示,目前的视频生成有点像图像生成的2022年前夕,2022年8月Stable Diffusion开源后,AIGC图像生成开始爆发,但视频生成领域目前还没有一个特别厉害的“开源Sora”发布,大家还需要探路。启明创投在7月发布了 “2024生成式AI十大展望”,其中一条是,3年内视频生成将全面爆发,他们认为,结合3D能力,可控的视频生成将对影视、动画、短片的生产模式带来变革。未来图像和视频隐空间表示的压缩率提升五倍以上,从而使生成速度提升五倍以上。 -
MiniMax加入视频生成混战,大模型的尽头是做视频?
又一家国内独角兽加入视频生成模型的混战。 8月31日,一向低调的“AI六小龙” 之一——MiniMax第一次正式对外,在上海办了场“MiniMax Link伙伴日”活动。在会上,MiniMax创始人闫俊杰宣布推出视频生成模型和音乐模型。
2025-07-19 09:49:01 -
百度副总裁:大模型领域有人在挂羊头卖狗肉
快科技9月1日消息,在2024亚布力企业家第二十届夏季年会期间,百度副总裁石清华指出,目前大模型领域存在两种不良现象。 其中之一便是一些非技术专家在该领域进行“挂羊头卖狗肉”的行为,这不仅干扰了企业主的
2025-07-19 09:25:01 -
中美AI差距有没有10年?这场大会上,大咖们这样说
近日,“2024亚布力企业家第二十届夏季年会”在广州市成功举行。大模型作为近两年最火热的科技赛道之一,自然也是企业家们在这届夏季年会上关注的焦点。 当前,大模型在金融、医疗、教育等多个产业落地应用,成
2025-07-19 09:01:01 -
美国多家航空公司采用AI技术优化运营
相关部门预计,今年美国劳工节假期期间,美国机场的客流量或创下历史新高。为了应对旺盛的航空旅行需求,现在美国多家航空公司纷纷采用人工智能技术来优化各个环节的运营,包括地面控制、航线设计再到客户服务等
2025-07-19 08:37:01 -
想去大厂上班吗?先过AI面试这一关
本文来自微信公众号:三联电子厂Pro,作者:森赛,编辑:Benjamin,题图来自:AI生成 年轻人怎么也不会想到,毕业后遇到的第一个面试官,很可能是个AI。 如今人们的生活已离不开人工智能(AI)——导航、看房、
2025-07-19 08:13:01 -
大厂不想你有 AI 女友
作为对 GPT-4o 的回应,谷歌在 8 月发布了 Gemini Live,试图让 AI 助手可以像真人一样对话。这个新助手的对话效果是如此之好,以至于让外媒记者 Joanna Stern 产生了「Her」的感觉。 《Her》是杰昆·菲尼克斯 Joa
2025-07-19 07:49:01
-
李彦宏:AI大模型本身不直接产生价值,“卷”大模型没有意义,“卷”应用机会更大
9月5日,百度CEO李彦宏在百度“文心杯”创业大赛颁奖致辞中表示,AI 原生应用要能解决过去解决不了、解决不好的问题,应用才是大模型存在的意义。
2025-04-13 15:06:30 -
佳能推出两款图像AI处理工具:提供消除马赛克、降噪与画质提升三大功能
佳能中国官方发布消息称,正式对消费者推出两款神经网络应用工具软件,主要面向专业的制图师与、摄影发烧友、摄影师及其影像工作室等人群。
2025-04-29 15:41:20 -
美年健康:大模型与AI Agent赋能,引领医疗人工智能应用
随着科技迅猛发展,人工智能已悄然融入生活各个角落。在12 月 14日结束的第七场发布上,Open AI 作为全球AI领域的先行者,再次展示了其在人工智能领域持续迭代与创新的强劲势头,从ChatGPT 的广泛应用,到后来依
2025-05-14 16:25:21 -
张军出席第19届亚太首席大法官会议并作专题发言表示 深化人工智能领域的司法交流合作 努力为人类司法文明进步作出新贡献
张军出席第19届亚太首席大法官会议并作专题发言表示 深化人工智能领域的司法交流合作 努力为人类司法文明进步作出新贡献 当地时间10月12日至13日,第19届亚太首席大法官会议在马来西亚吉隆坡举办
2025-06-25 11:06:12 -
我国人工智能核心产业规模不断提升 注册用户超6亿
工业和信息化部12日表示,截至目前,我国生成式人工智能服务大模型的注册用户超过6亿。 工业和信息化部总工程师 赵志国:我国人工智能核心产业的规模在不断提升,企业数量超过了4500家。完成备案并上线为公众
2025-06-25 11:30:12 -
人工智能可帮助寻找暗物质
瑞士研究人员开发出一种人工智能算法,可从天文观测数据中分辨出与暗物质有关的信号,将其与容易混淆的其他信号区别开来。 瑞士洛桑联邦理工学院科研人员开发的这一深度学习算法利用了“卷积神经网络”技术,这是一
2025-07-08 11:09:23 -
midjourney新功能_style tuner应用教程_MJ最新教程
MJ的新功能style tuner,终于可以训练自己的模型风格了,在我快速模式恢复之后立马尝试了一遍,操作步骤简单,比SD容易上手太多,我来代练一遍,大家跟上节奏
2024-12-19 06:34:05 -
OpenAI官宣:开始训练下一代AI大模型,「GPT-5」发布时间曝光
最近OpenAI的小动作越来越频繁了。当地时间5月28日,OpenAI在官网博客上正式宣布?:开启下一代大模型的训练,同时成立AI安全监管委员会。
2025-01-21 17:52:43 -
阿里云加入AI大模型API价格战:宣布主力模型Qwen-Long降价97%,中文能力比肩GPT-4
5月21日,阿里云紧随其后抛出重磅炸弹:通义千问「GPT-4级」主力模型 Qwen-Long 宣布降价,降价后,1元最多可以获得200万tokens。
2025-01-22 15:43:06 -
马斯克预测:AI人工智能技术最快将在两年内超越地表最聪明的人类智商
马斯克预测:AI将在两年内超越地表最聪明的人
2025-02-03 21:49:37
















