字节豆包直面AI视频降本难题,压力给到了谁?
自sora横空出世开辟AI视频的新纪元以来,国内外各大玩家陆续加入AI视频的竞逐赛。但是,当进入这一更交互、更沉浸的视频新时代,又该如何应对成本、质量和性能方面的挑战?
10月15日,火山引擎联合英特尔共同在视频云技术大会上发布了大模型训练视频预处理方案。《每日经济新闻》记者在发布会现场了解到,目前该技术方案已应用于豆包视频生成模型。
发布会上,Bytedance Research负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。
此外,抖音集团视频架构负责人王悦透露了字节自研视频编解码芯片的最新进展:经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了95%以上。
“首先,超大规模视频训练数据集导致计算和处理成本激增。”王悦指出,大模型厂商在预处理过程中面临诸多挑战,“其次是视频样本数据参差不齐,然后是处理链路环节多、工程复杂,最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”
自研多媒体处理框架
在9月24日的火山引擎AI创新巡展上,PixelDance和Seaweed两款豆包视频生成大模型一并发布,吸引业内外人士关注。其实,字节跳动在视频生成模型上下的功夫不止于此。
10月15日,火山引擎发布了大模型训练视频预处理方案,致力于解决视频大模型训练的成本、质量和性能等方面的技术挑战。
据介绍,对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。
在视频生成模型的训练中,算力成本无疑是首屈一指的挑战。
一位国内视频生成模型的算法工程师在接受《每日经济新闻》记者采访时表示,在拥有高质量数据后,视频模型会比大语言模型更难训练,有更多的算力需求,“目前已知的开源视频模型没有特别大,主要是目前很多视频模型处于不知道如何使用数据的阶段,(用于训练的)高质量数据也没有特别多”。
计算机科学家 Matthias Plappert的研究也显示,Sora的训练对算力规模需求巨大,在训练环节大约需要在4200~10500张Nvidia H100上训练1个月,且当模型生成到推理环节以后,计算成本将迅速超过训练环节。
为了解决降本难题,火山引擎借助Intel的CPU等资源,将大模型训练视频预处理方案依托于自研的多媒体处理框架。王悦表示,该方案还在算法和工程方面进行了调优,可以对海量视频数据进行高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。
对于该方案的应用,李航在发布会现场透露,豆包视频生成模型PixelDance在训练过程中已采用该方案。同时,火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。
此外,在此次发布会上,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案,从视频的生产端、交互端到消费端,全链路融入AI能力。
AI视频去向何方?
AI正全方位重塑人们生产、传播和接受信息的路径。其中,不断涌现的视频新技术将人们从流畅、高清的数据世界带入了更加智能、更具交互体验的AI世界。
今年7月,商汤推出了首个面向C端用户的可控人物视频生成大模型Vimi;8月,MiniMax发布了视频生成模型video-1;9月,可灵AI完成第九次迭代,发布“可灵1.5模型”,阿里云在云栖大会上推出全新的视频生成模型,字节也发布了2款视频生成模型。AI视频产品的诞生和迭代几乎是以月来计时的。
对于AI视频产品的“爆发”,北京市社会科学院副研究员王鹏在接受《每日经济新闻》记者采访时表示,国内AI视频产品正处于快速发展和不断迭代的阶段,主要因为市场需求旺盛、应用场景广泛和商业化模式多样等。
目前市场上AI视频产品的落地大多在影视、电商营销等领域,例如今年7月,即梦AI和博纳影业合作推出了全国首部AIGC生成式连续性叙事科幻短剧集《三星堆:未来启示录》;今年9月,快手联合贾樟柯、李少红等9位知名导演启动“可灵AI”导演共创计划。
工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者指出,如今部分AI视频产品处于导入期,因为技术或合规性,很难在市场上铺开,“目前感觉开源(AI视频产品)比闭源的更受欢迎,因为ai视频生成的成本很高,而视频制作者往往缺少资金,所以利用开源的、下载到终端的AI算法可以更好地制作生成视频”。
在他看来,现阶段AI视频产品主要有算力和合规风险两方面的障碍。“算法、算力和数据方面都需要企业投入较多的资源和时间;另一难点在于合规风险,如今对隐私越来越重视,合规是绕不过去的话题,而AI视频有时可能会侵犯个人隐私。”他解释称。
此外,易观分析研究合伙人陈晨也在接受《每日经济新闻》记者采访时表达了对视频生成大模型短期变现能力的担忧,“由于AI大模型高昂的模型训练与推理成本,加之C端用户对AI工具的需求相对分散,付费意愿不足,视频大模型在C端市场的商业化仍然会面临一个较长的培育期”。
AI视频的时代来到了,但如何降本增效、拿下更多市场也将成为互联网大厂和科技企业面对的重要命题。
-
字节豆包直面AI视频降本难题,压力给到了谁?
自Sora横空出世开辟AI视频的新纪元以来,国内外各大玩家陆续加入AI视频的竞逐赛。但是,当进入这一更交互、更沉浸的视频新时代,又该如何应对成本、质量和性能方面的挑战? 10月15日,火山引擎联合英特尔共同在
2025-06-19 13:13:44 -
AI的尽头是能源,亚马逊加入谷歌、微软行列,布局核能
随着生成式AI的快速发展,科技巨头正在核能领域密集布局。 当地时间10月16日,亚马逊宣布,公司签署了三项核反应堆开发协议,成为最新一家寻求新能源以满足数据中心不断增长的电力需求的大型科技公司。
2025-06-19 12:49:44 -
人民中科跨模态大模型“白泽”完成生成式人工智能服务备案
人民网北京10月21日电 北京市委网信办今日发布公告,根据《生成式人工智能服务管理暂行办法》,截至10月21日,北京市新增12款已完成备案的生成式人工智能服务,累计已完成94款生成式人工智能服务备案。其中,人民
2025-06-19 12:25:44 -
Sora还没来,AI视频赛道一夜入秋
当下,各路生成式AI工具落地如火如荼。 据全球知名数据机构SimilarWeb统计,2024年9月,稳居全球第一的ChatGPT网站月访问量环比增长18 71%,达到31 24亿次。同时,聊天机器人Gemini、虚拟角色伴侣Character AI、A
2025-06-19 12:01:44 -
微信悄然加码AI,“AI微信”是腾讯的又一个阳谋?
微信,那个被认为“最佛系更新”的国民超级软件,最近越来越忙了。 10 月 8 日,微信鸿蒙原生版正式开始邀请内测。尽管这个鸿蒙原生版只提供了最基本的聊天、朋友圈、收付款功能,但仍然为鸿蒙补全了软件生态最重
2025-06-19 11:37:44 -
假装被马斯克裁员的整活鬼才,现在AI创业融资3500万
给马斯克“整了个大活”的那个男人,靠AI创业获得了500万美元(约3552万人民币)融资。 他是Daniel Francis,创业公司Abel,做的是一款辅助警察完成文书工作的应用。 你可能不熟悉这个名字,但又似乎见过这张脸
2025-06-19 11:13:44
-
MJ图片种子怎么获取_MJ图片种子有什么用
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-02 13:42:19 -
财经三人谈:“人工智能泡沫”,现在到底有多大?
编者的话:伴随着近期苹果、微软、英伟达等美国科技股的集体大跌,“人工智能(AI)会是下一个泡沫吗”成为科技界、投资界热议话题。自2022年ChatGPT聊天机器人问世以来,全球AI领域迎来研发和投资热潮,一些经济学
2025-05-15 09:28:43 -
美图AI数字人生成工具DreamAvatar_DreamAvatar是什么_DreamAvatar怎么下载
近日,美图公司旗下AI数字人生成工具DreamAvatar上线,第一版推出“AI演员”数字人生成服务。以AI驱动为核心,服务于视频内容创作、影视处理与剪辑等生产力场景。虽然DreamAvatar的“AI演员”功能是美图在影视行业的初次尝试,但是在影视行业,数字人的应用已经相当普遍,且都是刚需。
2025-04-04 13:15:32 -
AI牵手最新通信技术,更多场景和样本扩容
运营商的业务盘子之大,一篇文章其实很难全部装下。不过,无论是从财报数据还是高管讲话来看,目前运营商被业内紧盯的热点有二——以大模型为代表的人工智能,以及以5G-A为代表的最新一代通信技术。 其中,在春
2025-05-14 09:36:28 -
张文宏回应“被AI带货”:已多次向平台投诉
最近,有网友向媒体反映,家中老人在网络卖货视频中看到“张文宏医生”在卖一种蛋白类的产品,老人信以为真,不仅下了单还转发给了很多群。经过记者核实,该视频并非张文宏医生本人,而是利用AI技术合成的。对此,
2025-05-14 09:42:52 -
管制AI芯片出口,美指定“守门人”?
据路透社12月13日报道,两名知情人士透露,美国政府正在计划授权谷歌、微软等主要云服务提供商,作为全球范围内人工智能(AI)芯片分销的“守门人”,阻止包括中国等国家获取先进AI芯片。报道称,获得“守门人”资格
2025-05-15 10:40:43 -
量子位智库:国内AI应用首轮洗牌结束 仍存未解难题
12月11日,量子位智库发布《2024年度AI十大趋势报告》提出,过去一年,AI应用第⼀轮洗牌结束,缺乏“杀⼿级”场景依旧是我国AI APP的未解难题。 为了更好地从数据维度观察国内产品的现状,量子位智库选取了400
2025-05-15 13:28:43 -
今年就业季,AI面试官频出没,人类的offer已经被AI“拿捏”了?
“请先做个自我介绍,让我更充分地了解你的实际情况,如:姓名、年龄、学校、项目实习的工作经验、专业技能、自我评价等。” “好的,我……”思思的回答刚开了个头,就听到屏幕那边开始倒数3、2、1。倒数结束后,
2025-05-15 15:28:43 -
聚焦人工智能,这场研讨会助力产教深度融合
为促进产教深度融合,发挥青岛市高校资源集聚优势,12月11日,产教深度融合对接研讨会山东大学青岛人工智能产业专场在青岛高等教育校地融合服务中心成功举办。此次活动由青岛市教育局、青岛市工业和信息化局、崂
2025-05-15 16:16:43 -
天职师大成功举办2024年人工智能、数字媒体技术与交互设计国际学术会议
近日,由我校主办的2024年人工智能、数字媒体技术与交互设计国际学术会议于在大学生活动中心展演厅成功举办。校党委副书记、校长郑清春出席会议并致辞。 郑清春在致辞时对大会的成功举办表示祝贺,并向与会专家
2025-05-16 14:46:42