斯坦福大学吴佳俊团队×谷歌打造3D场景生成模型WonderJourney:文本/图像生成3D无限世界,颠覆游戏开发行业
斯坦福吴佳俊团队打造AI版“爱丽丝梦游仙境”巨作!
仅用一张图or一段文字就能沿相机轨迹生成无限连贯3D场景:
只需输入一段古诗词,诗中场景立刻映入眼帘:
而且还是来回式的,可以再倒回去的那种:
同一起点可以进入不同场景:
真实场景也可以,其中的人物阴影等细节都毫无违和感:
方块世界更不在话下,仿佛打开了《我的世界》:
这项工作名为WonderJourney,由斯坦福吴佳俊团队和谷歌研究院联合打造。
除了可以从任意位置开始,无限生成多样化且连贯的3D场景,WonderJourney根据文本描述生成时,可控性也很高。
只要将鼠标悬停在视频上,就可以暂停自动滑动。
这项工作的发布让网友们直呼“难以置信”?——项目代码还没正式发布,就收获了200+星:
AI研究员Xander S****brugge惊讶之余表示:这是生成式AI和传统3D技术的完美结合。
要知道,之前的工作都是专注于单一类型场景,WonderJourney可谓打开了新世界的大门。
那这究竟是如何做到的?
开启3D奇妙之旅
生成无限连贯3D场景要解决的一大难题是:如何在保持元素多样性的同时,生成符合逻辑的场景元素组合。
这当中需要判断将要生成的元素空间位置的合理性,还需要处理好新旧场景的遮挡关系、视差等几何关系。
可以看到WonderJourney在这方面的处理上非常细致:
无论什么风格都能轻松驾驭:
能够做到这些,关键在于WonderJourney的模块化流程。
总的生成过程分为“确定要生成什么对象”、“把这些对象放在哪里”、“这些场景如何在几何上连接”三步。
需要以下三个模块配合完成:
Scene description generation:使用大语言模型(LLM)根据当前场景生成下一个场景的文本描述。Visual scene generation:将文本描述转换为3D点云表示的场景。Visual validation:使用VLM验证生成的场景,检测到不合理的结果启动重新生成。具体来说,在Scene description generation模块,使用预训练好的LLM输入当前场景描述,通过自回归生成下一个场景,其中包含风格、物体、背景三部分的描述。
此外,还要将自然语言描述进行词类过滤,只保留名词和形容词;每生成一个新场景描述,会更新场景描述记忆。
在Visual scene generation模块,先是将当前图像/文本转换为3D点云表示。
然后使用depth refinement增强对象边界的depth不连续性,通俗来讲就是让边界两侧的深度对比更加明显,从而使过渡更加逼真。
之后使用text-guided inpainting基于文本描述生成新场景图像。
研究人员还设计了depth consistency loss和re-rendering consistency机制改进新旧场景遮挡和点云对齐。
最后Visual validation模块,使用VLM提示检测生成图像中的不好的结果,比如画框、模糊等,如果检测到则重新生成场景。
值得一提的是,这三个模块都可用最先进的预训练模型实现、替换,所以不需要任何训练。
实验测试
由于连贯3D场景生成是一个没有现有可用数据集的新任务,所以研究人员在实验中使用了自己拍摄的照片、来自在线无版权的照片以及生成的图片进行了评估。
此外,使用了两种最先进的连续视图生成方法作为基准:基于图像的InfiniteNature-Zero和基于文本的SceneScape。
定性结果展示了从不同类型输入生成的连贯3D场景序列效果,表明方法可以从任何输入开始生成:
此外,同一输入可生成不同输出,表明方法具有多样性:
研究人员还从生成效果多样性、视觉质量、场景复杂度和有趣度这4个方面进行了人类偏好评估。
结果WonderJourney方法明显优于InfiniteNature-Zero、SceneScape。
-
用户吐槽ChatGPT“变懒”,网友调查背后原因发现:AI机器人可能正在给自己“放寒假”!
ChatGPT变懒这事大伙已经讨论近一个月了。很多网友反馈,自11月6日OpenAI开发者日更新后,GPT-4就有了偷懒的毛病,尤其是写代码。
2025-03-24 11:13:09 -
斯坦福大学吴佳俊团队×谷歌打造3D场景生成模型WonderJourney:文本/图像生成3D无限世界,颠覆游戏开发行业
生成无限连贯的3D场景要解决的难题是:在保持元素多样性的同时,生成符合逻辑的场景元素组合,还需要判断将要生成的元素在场景空间里边的位置合理性。
2025-03-24 11:12:33 -
最强代码生成工具上线!基于谷歌Gemini开发的Duet AI for Developers官宣免费:支持20+语言,编程效率提升多达30%
谷歌年底开发者福利大放送来了!谷歌Gemini Pro API接口官宣免费用!最强代码生成工具Duet AI for Developers上线,支持20+语言。
2025-03-24 11:12:23 -
谷歌宣布Gemini Pro大模型将面向企业客户开放,允许开发商通过谷歌AI大模型构建应用产品
当地时间12月13日本周三,谷歌宣布了一系列升级的人工智能(AI)服务功能,其中重点推动旨在为其云计算客户提供更好的服务。
2025-03-24 11:12:12 -
马斯克宣布:Grok AI测试版已向美国地区的推特X Premium+订阅用户全面开放试用体验
当地时间12月8日,马斯克宣布旗下的人工智能初创公司 xAI 在 11月对外发布的首款 AI 聊天个人助手 Grok AI,正式面向公众开放测试体验。
2025-03-24 11:10:01 -
神反转丨OpenAI内鬼女董事曝出CEO奥特曼被罢免实情丨没有员工想跳槽微软这种老掉牙大厂
「OpenAI宫斗」第二季预告片要开演了~?被扫地出门的前董事会成员Helen Toner曝出真实内情:解雇奥特曼是“为了公司好”,但最终被律师劝阻了。
2025-03-24 11:09:54
-
MoonValley使用教程_AI视频怎么生成
本文为大家介绍一款视频生成 AI 工具 Moonvalley,只需简短的提示词,即可产生 16:9 的电影质感片段。接下来让我们来试一试吧。
2024-12-18 12:06:09 -
小米公司开启小爱AI大模型多模态能力内测:支持图片内容问答、AI扩图、消除路人,适配小米14、Redmi K70等
3月15日,小米官方宣布小米社区开启新一轮的小爱AI大模型内测。现已开启“小爱同学多模态功能内测”。
2025-02-07 13:53:52 -
midjourney新功能_style tuner应用教程_MJ最新教程
MJ的新功能style tuner,终于可以训练自己的模型风格了,在我快速模式恢复之后立马尝试了一遍,操作步骤简单,比SD容易上手太多,我来代练一遍,大家跟上节奏
2024-12-19 06:34:05 -
AI视频后期消除对象神器ProPainter:一涂一抹,视频轻松移除指定对象丨本地离线一键部署
今天给大家介绍一款超强的一键删除视频内的移动物体和去除视频水印的工具ProPainter。本地部署比较麻烦,已经为大家制作好了离线整合包,解压即用。
2024-12-19 17:43:32 -
你已经是个“成熟的AI”,可以帮我代肝了:智谱AI联合清华大学团队打造视觉大模型CogAgent:可提供《原神》教学辅助
日,清华大学与旗下孵化的人工智能创企智谱AI合作,联合推出了新一代视觉GUI Agent图像理解大模型 CogAgent,可告知《原神》游戏操作步骤等
2025-02-20 17:54:39 -
AI代理将主导2025年,而不是ChatGPT
很多人工智能专家和预测者都认为,今年该领域最大的趋势之一是 AI 代理,它与 Claude 或 ChatGPT 等生成式 AI 模型不同。AI 代理也不同于定制 GPT。以下是它们各自的主要区别。 生成式 AI: 专注于根据用户输入创
2025-02-21 09:08:08 -
OPPO公布AndesGPT大模型最新升级:70亿参数端侧模型,OPPO Find X7系列首发搭载,小布助手能力全面提升
在会上,OPPO 公布了自研的”安第斯大模型“ AndesGPT 的全新升级,为行业内”首个端侧应用70亿参数大模型“的手机厂商。
2025-02-21 09:08:06 -
两次走出低谷后,人工智能正重新占据舞台中心
2月16日早上,王祚的手机里收到了一条公众号推送,文章标题直白且不加掩饰——“现实,不存在了。” 这句看似从科幻小说《三体》中借鉴来的标题吸引了王祚,出于好奇,他打开了这篇推文。文章中讲述的是美国开放人工
2025-02-21 09:35:08 -
AI浪潮勿忘“银发族”
在春节这个家庭团聚的时刻,新科技总是成为聊天的热门话题,而今年,人工智能(AI)无疑成了讨论的焦点。 在大年初一的家庭聚会中,刚步入大学的侄子热情洋溢地分享了他在校园内参与AI社团的经历,以及如何利用AI
2025-02-21 09:56:40 -
银河证券:DeepSeek的技术颠覆带来的是AI行业的多元化,有望加速AI行业的普及繁荣
每经快讯,银河证券研报认为,DeepSeek通过算法及工程创新,显著降低成本。结合银河证券对芯片、硬件、软件、应用端等的影响分析,DeepSeek的技术颠覆带来的是AI行业的多元化,有望加速AI行业的普及繁荣。建议关
2025-02-21 13:40:54