开源版Gemini诞生_全能多模态模型Emu2登热榜_最新Emu2
过去的18个月里,我们见证了AI领域许多重要的时刻。
Llama、Alpaca等众多开源模型竞相发布,不仅与闭源模型的性能相媲美,同时为每个人提供了投身AI的机会:
- 2022年8月,Stable Diffusion问世,让DALL·E的神秘光环不再遥不可及,每个人都能够召唤出自己的数字达芬奇;
- 2023年2月,Meta的Llama及其后续的语言模型大军,让ChatGPT的独角戏成为群星争辉;
- 2023年12月6日,Google DeepMind揭开多模态巨星Gemini的面纱。
仅仅两周后,智源研究院便发布了最新一代生成式多模态开源模型——Emu2.
很快,这一开源多模态领域的工作便引起了国际社区的广泛关注,并登上了HN热榜第三。
Emu2在HackerNews榜单上引发关注
HuggingFace大V AK转发
据悉,这一模型即将推出更轻量的版本,让技术玩家也在本地运行。
Emu2.通过大规模自回归生成式多模态预训练,显著推动了多模态上下文学习能力的突破。
Emu2在少样本多模态理解任务上大幅超越Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。
Emu2模型和Flamingo、GPT-4V、Gemini等模型能力对比情况一览
「开源版Gemini」来袭
相较2023年7月发布的第一代「多模态to多模态」Emu模型,Emu2使用了更简单的建模框架,训练了从编码器语义空间重建图像的解码器、并把模型规模化到37B参数实现模型能力和通用性上的突破。
与此同时,依然采用大量图、文、视频的序列,建立基于统一自回归建模的多模态预训练框架,将图像、视频等模态的token序列直接和文本token序列交错在一起输入到模型中训练。
值得一提的是,Emu2是目前最大的开源生成式多模态模型,基于Emu2微调的Emu2-Chat和Emu2-Gen模型分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型:
- Emu2-Chat可以精准理解图文指令,实现更好的信息感知、意图理解和决策规划。
- Emu2-Gen可以接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。
现在,Emu2的模型、代码均已开源,并提供Demo试用。
项目:https://baaivision.github.io/emu2/
模型:https://huggingface.co/BAAI/Emu2
代码:https://github.com/baaivision/Emu/tree/main/Emu2
Demo:https://huggingface.co/spaces/BAAI/Emu2
论文:https://arxiv.org/abs/2312.13286
多项性能刷新SOTA
通过对多模态理解和生成能力的定量评测,Emu2在包括少样本理解、视觉问答、主体驱动图像生成在内的多个任务上取得最优性能。
在少样本评测上,Emu2在各个场景下显著超过Flamingo-80B,例如在16-shot TextVQA上较Flamingo-80B 超过12.7个点。
经过指令微调的Emu2可以对图像和视频输入进行自由问答,以统一模型在VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等十余个图像和视频问答评测集上取得最优性能。
在零样本的DreamBench主体驱动图像生成测试上,较此前方法取得显著提升,例如比Salesforce的BLIP-Diffusion的CLIP-I分数高7.1%, 比微软的Kosmos-G的DINO分数高7.2%。
多模态上下文学习
生成式预训练完成后,Emu2具备全面且强大的多模态上下文学习能力。基于几个例子,模型可以照猫画虎的完成对应理解和生成任务。
例如在上下文中描述图像、在上下文中理解视觉提示(覆盖图像上的红圈)、在上下文中生成类似风格的图像、在上下文中生成对应主体的图像等。
强大的多模态理解
经过对话数据指令微调的Emu2-Chat,可以精准理解图文指令、更好的完成多模态理解任务。
例如推理图像中的要素、读指示牌提供引导、按要求提取和估计指定属性、回答简单的专业学科问题等。
基于任意prompt序列的图像生成
经过高质量图像微调的Emu2-Gen,可以接受图像、文本、位置交错的序列作为输入,生成对应的高质量图像,这样的灵活性带来高可控性。
例如生成指定位置、指定主体的熊和向日葵:
生成指定位置、指定主体、指定风格的宠物狗和小鸸鹋的合影图像:
更多的根据图文序列生成的例子:
基于任意prompt序列的视频生成
进一步的,Emu2支持基于任意prompt序列的视频生成。
基于文本、图文交错、图文位置交错的序列,可以生成对应的高质量视频。
统一的生成式预训练
Emu2的训练方法是在多模态序列中进行生成式预训练。
使用统一的自回归建模方式,根据当前已生成的 token 预测下一个视觉或文本token。
相比Emu1.Emu2使用了更简单的建模框架、训练了更好的从特征重建原图的解码器、并把模型规模化到37B参数。
-
开源版Gemini诞生_全能多模态模型Emu2登热榜_最新Emu2
最强的全能多模态模型来了!就在近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,一口气刷新多项SOTA。
2025-02-21 13:21:23 -
Palantir:暴打空头,高不可攀的“AI信仰”
Palantir于美东时间2月3日盘后发布了2024年四季度的业绩。在巨头们还陷在Deepseek搅局下对大模型是否值得高投入的争议中时,Palantir则再次用Q4财报的实际行动证明,做好特定垂类的AI应用,也能大有可为! 具体
2025-02-21 13:13:09 -
⚠️ 警告!慎用Midjourney V6新模型:可一键生成漫威/DC影视作品,这波更新可能会让你惹出官司麻烦
警告!慎用Midjourney V6,根据推特(X)平台网友的分享,V6模型生成的图像,与素材原著的相似度超过9成。不少用户贴出了拟合度非常高的案例。
2025-02-21 12:54:13 -
情感价值引领新风口 AI陪伴机器人或成AI硬件新浪潮
在谷子经济带火“情绪价值“的当下,AI陪伴人形机器人也试图在“情绪价值”的消费市场中找到一片蓝海。相比AI玩具,记者了解到,AI陪伴人形机器人是更高阶版的AI落地场景。此前,苹果已发力桌面级陪伴机器人。 从
2025-02-21 12:45:39 -
微软上架AI智能助理聊天机器人Copilot安卓版本:支持文本创作、AI绘画与视觉设计等功能
为了便于更多地进入到更宽广的手机移动端领域,让更多人用上Copilot。微软近日悄然上线了安卓版本的Copilot应用,目前可在Google Play商店下载。
2025-02-21 12:30:59 -
国泰君安:DeepSeek—R1的推出有望加速AI应用落地
每经快讯,2月5日,国泰君安研报表示,DeepSeek—R1的推出体现了开源范式下技术进步的速度,以及在AI训练、推理上成本大幅度压缩的可能,AI的广泛落地有望加速,可从几个重点方向布局:1)具备优秀大模型能力的公
2025-02-21 12:19:31
-
AI视频后期消除对象神器ProPainter:一涂一抹,视频轻松移除指定对象丨本地离线一键部署
今天给大家介绍一款超强的一键删除视频内的移动物体和去除视频水印的工具ProPainter。本地部署比较麻烦,已经为大家制作好了离线整合包,解压即用。
2024-12-19 17:43:32 -
快手「可灵AI」全面开放内测,国际版上线丨Mistral发布1230亿Large 2旗舰模型丨OpenAI免费提供GPT-4o微调
【AI奇点网2024年7月25日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-01-14 11:04:50 -
10年缘分说散就散:Ilya Sutskever官宣从OpenAI离职,麾下的“超级对齐团队”负责人也一并离职
5月14日,OpenAI 联合创始人、首席科学家 Ilya Sutskever 发推文对外宣告离职。作为联合创始人历经供职十载,OpenAI初创团队还是走散了
2025-01-26 13:54:56 -
爆火Sora震惊威尔·史密斯,真人整活吃意面视频丨OpenAI技术路线或早在1月被成功预言
威尔·史密斯的这段视频,把全网都骗了!其实Sora的技术路线,早已被人预言了。李飞飞去年就用Transformer做出了逼真的视频。但只有OpenAI大力出奇迹,跑在了所有人前面。
2025-02-13 09:47:49 -
openai取消每日限制_GPT-4 turbo取消每日限制
2月17日,OpenAI在社交平台宣布,取消了GPT-4 Turbo的所有每日限制,并将速率限制提升1倍。现在,每分钟可处理高达150万TPM的数据。
2025-02-13 10:38:31 -
商汤「日日新4.0」大模型测评:性能逼近GPT-4,全新「Assistants API」能力连OpenAI都只能自叹不如
近日,商汤官宣新一代大模型「日日新4 0」。大模型体系全面升级,不仅如此,商汤还领先推出全球首个支持不同模态下实现能力调用的Assistants API
2025-02-13 11:37:00 -
痛失2亿港元!警方通报:香港一跨国公司惨遭「AI换脸」线上诈骗,公司上下竟无一人察觉
据香港媒体报道,??香港警方披露境内首宗多人换脸AI技术诈骗案,一家总部位于英国的跨国公司的香港分公司被AI换脸技术的一段视频,直接骗走2亿港元。
2025-02-13 12:49:36 -
hugging face开源平替_Hugging Chat Assistant最新上线
抱抱脸新推出了OpenAI的GPT商店开源平替,“Hugging Chat Assistant”,也瞄准了让用户免费制定自定义聊天机器人。该软件完全免费,无需像OpenAI那样不开会员就被拒之门外。
2025-02-14 10:04:00 -
360 AI智能搜索APP上架移动应用商店:基于搜索结果快捷生成可追溯的整合型答案
“360 AI搜索”移动APP在国内的各大手机应用商城上线。这是一款免费的智能搜索工具软件,基于360自研的“360智脑”大模型开发。
2025-02-14 16:29:24 -
真实降维打击!Sora横向对比Runway、Pika、AnimateDiff、LeonardoAI四款主流AI视频生成模型
近日,国外一名创作者利用Sora官网上提供的提示词,比较了目前同赛道的几款竞品Runway Gen-2、AnimateDiff、Pika,LeonardoAI四款AI工具的生成效果。
2024-12-13 19:07:36