华尔街日报专访OpenAI CTO穆拉蒂:Sora将于年底发布,只需几分钟可以生成一段视频
以下文章来自丨腾讯科技
据国外媒体报道,美国当地时间周三,人工智能初创公司OpenAI的CTO米拉·穆拉蒂(Mira Murati)接受《华尔街日报》专访。在访谈中,穆拉蒂详细介绍了OpenAI文本转视频人工智能工具Sora以及其发布计划,还谈了训练数据、红队测试以及与电影业合作等话题。
完整采访视频如下:
以下为WSJ报道摘要:
人工智能正在迎来下一个“魔法时刻”,在这个时代,你的话语将不再仅仅是文字,它们将被赋予生命,转化为生动逼真的视频。这正是OpenAI最新研发的Sora所带来的革命性变革,它让视频制作变得更加简单、高效。
Sora或许将在今年晚些时候与我们正式见面。然而,在此之前,OpenAI已向公众展示了其惊人之处:利用精心编写的提示和强大的处理能力,许多原本需要人工参与的视频制作环节变得轻而易举。想象一下,许多充满创意的提示,如美人鱼与她的螃蟹伙伴一同点评智能手机,或是一头牛悠然自得地漫步在瓷器店中,这些场景在Sora的魔力下都将成为可能。
当OpenAI上个月开始预览其利用生成人工智能工具制作的视频时,互联网瞬间沸腾了。此前的人工智能视频技术已经可以呈现出断断续续、分辨率较低的片段,而Sora所生成的视频却如同自然纪录片或大片级别的作品,令人叹为观止。
Sora不仅为我们所熟悉的人工智能感觉循环注入了新的活力,更引发了人们对其能力的惊叹和社会的深深忧虑。穆拉蒂在采访中保证,OpenAI在发布这一强大工具时将采取极为慎重的态度。然而,即便如此,我们也不能保证一切都会朝着好的方向发展。
穆拉蒂透露,一段20秒时长、720P分辨率的无声视频,仅仅几分钟就能制作完成。但她表示,他们计划在未来为视频增加语音功能,让内容更加完整。
Sora究竟是如何工作的?穆拉蒂解释称,Sora的人工智能模型通过大量视频数据的学习,学会了识别和理解各种物体与动作。当你给它一个文本提示时,它能够迅速勾勒出整个场景,并逐帧填充细节,从而生成出令人惊艳的视频内容。
人工智能就像黑盒子
业内观察人士和竞争对手们(包括Runway的CEO)纷纷将OpenAI在视频生成技术方面取得的成就归功于其庞大的计算能力和丰富的训练数据。然而,近期OpenAI却陷入了版权侵权诉讼的漩涡,被指控未经许可抓取内容以训练ChatGPT。
OpenAI在训练Sora时使用了哪些数据?穆拉蒂回答称:“我们使用了公开可用的数据和授权数据。”当被进一步问及是否包括YouTube、Instagram和Facebook等平台上的视频时,她表示并不清楚具体情况。不过,穆拉蒂后来证实,授权材料确实包括了来自一些摄影图片网站的内容。
对于普通用户来说,人工智能模型就像是一个黑盒子,我们只知道输入提示和输出内容,却无法窥探其中的工作机制。因此,我们永远无法确切知道为什么某些事物在生成时会呈现出特定的样子。
穆拉蒂还透露,目前利用Sora生成视频的成本远高于使用该公司图像生成器Dall-E生成图像。然而,她表示在Sora于今年年末向公众发布时,他们将努力优化算法,以降低所需的计算能力,从而使更多人能够享受到这项技术带来的便利。
在当前的早期阶段,我们如何能够识别出视频是由人工智能生成的而不是真实拍摄的呢?仔细观察Sora的作品,你会发现一些明显的痕迹。比如,有的视频中,人手上长出十根手指,穆拉蒂对此解释道:“要准确地描绘手部运动真的很难。”
在另一段视频中,创作者要求Sora展示一个机器人从电影制片人手中抢走摄像机的场景。然而,生成的视频中,原本的人类电影制片人突然变成了一个动作不自然的电影制作机器人,而且背景中的车辆也在不经意间发生了颜色的变化,从黄色出租车变成了银色轿车。穆拉蒂对此解释说,尽管该模型在保持场景连续性方面已经做得相当好,但仍有待完善。
如何识别AI生成视频?
那么,当这些技术故障被解决后,我们该如何区分真实视频和人工智能生成的视频呢?穆拉蒂提到了可能的解决方案:在视频的底部添加水印。她表示,这些视频最终将包含元数据,用以标明其来源,这有助于我们识别和追溯其生成方式。
除了技术问题,OpenAI还在致力于通过红队测试来确保Sora的安全性和可靠性。红队成员尝试使用各种提示来挑战Sora,以发现可能存在的漏洞、偏见和其他有害结果。穆拉蒂称:“这就是为什么我们实际上还没有部署这些系统的原因。我们需要先弄清楚这些问题,然后才能广泛部署它们。”
穆拉蒂透露,Sora的提示词政策可能会借鉴其图像生成器Dall-E的先例。比如,Sora将不允许生成公众人物的图像。
而关于可能涉及裸体的内容,穆拉蒂表示,公司正在与艺术家们紧密合作,探讨如何在不限制创造力的前提下,为这类内容设置适当的“护栏和限制”。
与好莱坞合作
随着像Sora这样的工具不断进步和完善,我们不禁要问:人类将如何适应这样的变革?在一个仅需文字提示就能取代无人机操作员或角色插画师的世界里,人类将扮演怎样的角色?对于好莱坞等行业来说,这种变革既带来了担忧,也带来了兴奋。
泰勒·佩里(Tyler Perry)在亲眼目睹Sora的出色表现后,决定暂停他原本计划耗资8亿美元的工作室扩建计划。他意识到,这项技术有可能大幅度减少在布景和外景拍摄上的费用,但同时也引发了人们对未来职业前景的担忧。美国动画协会**珍妮特·莫雷诺·金(Jeanette Moreno King)认为,虽然艺术决策仍然需要人类的参与和判断,但“未来是模糊的”,充满了不确定性。
与此同时,爱德华·萨奇(Edward Saatchi)和他的人工智能视频工作室Fable正在构想着一个更加前卫的概念——一个人工智能版的Netflix。用户只需输入一个提示,系统便能生成出完整的剧集,满足观众的观看需求。
当被问及Sora对视频制作工作可能带来的影响时,穆拉蒂再次强调了OpenAI在发布这项技术时的谨慎态度。她表示,OpenAI已经让一些行业内部人士提前进入测试阶段,以便更好地了解并应对可能出现的挑战。她说:“我们希望电影界人士和世界各地的创作者都能参与进来,与我们共同探索如何进一步推动这些行业发展。”
尽管OpenAI在推进这项技术时表现得像瓷器店里的一头公牛,那么它需要小心翼翼地避免破坏现有的秩序。但不可避免的是,随着技术的不断进步和应用,它终将开始“撞碎瓷盘”,进而引发视频制作行业的深刻变革。
-
华尔街日报专访OpenAI CTO穆拉蒂:Sora将于年底发布,只需几分钟可以生成一段视频
在访谈中,穆拉蒂详细介绍了OpenAI文本转视频人工智能工具Sora的具体细节,以及上线发布计划,还谈了训练数据、红队测试以及与电影业合作等话题。
2025-02-08 15:29:51 -
马斯克预测:到2029年,AI智商超越人类,比所有人加起来还聪明
当地时间3月13日,马斯克在在推特(X)平台网上冲浪的时候发文表示,到2029年底,AI将超越整个人类的智力水平。
2025-02-08 15:02:18 -
英伟达推出“生成式AI专业认证”,帮你成为大模型开发专家!
3月8日,全球AI领导者英伟达(NVIDIA)在官网推出了,生成式AI(AIGC)专业认证,通过考试可获得行业认可的权威证书。
2025-02-08 14:39:14 -
谷歌Gemini新功能上线:可针对回复进行重新生成、缩短文段、扩充指定的聊天内容
3 月 8 日消息,谷歌近日升级了 Gemini 聊天机器人,用户和其聊天过程中,可以指定部分聊天内容,进行修改、缩短、扩充等操作。
2025-02-08 14:15:11 -
GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三
Claude 3的竞技场排名终于来了:短短3天内,20000张投票,将榜单的流量推向空前。最终,Claude 3最强的“大杯”模型Opus得分1233 成为第一个能和GPT-4-Turbo一较高下的选手。“中杯”Sonnet也还不错,和GPT-4的两个旧版本不相上下。
2025-02-08 13:46:49 -
硅谷版“罗密欧与朱丽叶”:马斯克vs奥特曼的爱恨情仇丨从兄弟同心到对薄公堂,8年发生了什么?
硅谷版“罗密欧与朱丽叶”故事正在上演,马斯克是奥特曼的引路人,但让OpenAI获得今天的成功,奥特曼成为科技圈的新晋网红,决定性因素在于微软的入局。
2025-02-08 13:18:00
-
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34 -
AI绘图模型测评_Meta Imagine发布_Meta Imagine最新地址
针对Meta Imagine,Midjourney,Adobe Firefly,Dalle,这四个我心目中的比较大的AI绘图模型测评。我会从细节质量、审美(构图色彩等)、风格多样化、语义理解这四个维度来评测,每个维度3个Prompt,同时每个Prompt我会在AI绘图模型中roll3次,取效果最具有代表性的那个图,尽量减少偏见。
2024-12-13 17:44:01 -
Midjourney角色一致性命令 "cref "测评丨如何保持多个角色一致性
预告了好久的MJ角色一致性功能终于来了, 新的命令“ --cref ”与 样式参考 “--sref”功能类似,但它不是匹配参考样式,而是尝试让角色匹配 "角色参考 "图像,--cref 目前只适用于 niji 6 和 v6 模型。
2024-12-13 18:32:59 -
二次元界欢呼,动漫风格神级工具更新丨AI绘图Niji V6全面上手评测
Niji V6正式更新,这期评测,我会在有限时间范围内,尽可能全面、客观的给大家展示并对比Niji V5与Niji V6的差异。整体我会分为几个维度来对比,分别是:创造力、角色张力、动漫风格表现、3D风格表现、其他风格表现
2024-12-13 19:56:45