苹果首个多模态大模型MM1曝光:论文上线,300亿参数规模、支持图像内容解读、MoE架构
以下文章来自于丨机器之心
刚刚宣布放弃造车项目的苹果公司,在当今的人工智能(AI)竞赛中落伍了。为了摆脱窘境,苹果近期放弃了造车项目,正在全面转向生成式AI领域,并且很快有了新动作,推出了一款被命名为「MM1」的多模态大模型。
从去年底开始,苹果已经加大了生成式 AI 的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 库克表示,今年将在生成式 AI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向 AI 业务。
如此种种,苹果向外界传达了加注生成式 AI 的决心。目前多模态领域的生成式 AI 技术和产品非常火爆,尤以 OpenAI 的 Sora 为代表,苹果当然也想要在该领域有所建树。
今日,在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 30B 参数的多模态 LLM 系列。
该团队在论文中探讨了不同架构组件和数据选择的重要性。并且,通过对图像编码器、视觉语言连接器和各种预训练数据的选择,他们总结出了几条关键的设计准则。具体来讲,本文的贡献主要体现在以下几个方面。
首先,研究者在模型架构决策和预训练数据选择上进行小规模消融实验,并发现了几个有趣的趋势。建模设计方面的重要性按以下顺序排列:图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据。
其次,研究者使用三种不同类型的预训练数据:图像字幕、交错图像文本和纯文本数据。他们发现,当涉及少样本和纯文本性能时,交错和纯文本训练数据非常重要,而对于零样本性能,字幕数据最重要。这些趋势在监督微调(SFT)之后仍然存在,这表明预训练期间呈现出的性能和建模决策在微调后得以保留。
最后,研究者构建了 MM1,一个参数最高可达 300 亿(其他为 30 亿、70 亿)的多模态模型系列, 它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。
具体来讲,预训练模型 MM1 在少样本设置下的字幕和问答任务上,要比 Emu2、Flamingo、IDEFICS 表现更好。监督微调后的 MM1 也在 12 个多模态基准上的结果也颇有竞争力。
得益于大规模多模态预训练,MM1 在上下文预测、多图像和思维链推理等方面具有不错的表现。同样,MM1 在指令调优后展现出了强大的少样本学习能力。
-
苹果首个多模态大模型MM1曝光:论文上线,300亿参数规模、支持图像内容解读、MoE架构
刚刚宣布放弃造车项目的苹果公司,在当今的人工智能(AI)竞赛中落伍了。为了摆脱窘境,苹果很快有了新动作,推出了一款被命名为「MM1」的多模态大模型。
2025-02-07 13:33:49 -
马斯克突然开源Grok:3140亿参数巨无霸,免费可商用
马斯克说到做到:旗下大模型Grok现已开源!代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是一个3140亿参数的混合专家模型——就是说,这是当前开源模型中参数量最大的一个。
2025-02-07 13:08:45 -
Sora视频大模型训练数据被质疑非法采集,OpenAI CTO接受外媒专访面对敏感提问表现大翻车
OpenAI再陷巨大争议!最近,OpenAI CTO Murati在华尔街日报的采访中大翻车,已经在网上掀起了轩然大波。大量网友怀疑OpenAI使用违规数据训练Sora。
2025-02-07 12:41:44 -
外媒曝:苹果公司正在与谷歌、OpenAI洽谈合作,为了让iPhone尽快用上最好的AI大模型
知情人士透露,苹果公司就在 iPhone 中内置谷歌 Gemini 人工智能引擎进行谈判,为达成一项将震撼 AI 行业的重磅协议奠定了基础。
2025-02-07 12:21:26 -
英伟达发布AI算力芯片B200丨高通发布第三代骁龙8s处理器丨李开复:目前最好的大模型已达人类平均IQ的三倍
【AI奇点网2024年3月19日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-07 11:56:46 -
重磅!英伟达正式官宣「AI核弹级」芯片B100,性能比H100强两倍的H200将于2024年第二季度出货
重磅!英伟达刚刚发布“AI核弹”,英伟达在发布H200时就顺手透露,下一代B100芯片将在2024年下半年推出,性能已经“望不到头”,全网直呼炸裂。
2025-02-07 11:09:12
-
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34 -
pika1.0首测超越gen-2_pika最新发布_pika文生图怎么用
Pika 1 0正式上线后,拿到内测资格的网友们已经玩疯了!有人用它生成了一个姜黄色头发女孩和她的姜黄色猫的短片。以往,因为一致性的难题,用AI视频很难做出优秀的动漫作品。但是Pika 1 0 实在是太给人惊喜了!
2024-12-13 17:39:08 -
AI绘图模型测评_Meta Imagine发布_Meta Imagine最新地址
针对Meta Imagine,Midjourney,Adobe Firefly,Dalle,这四个我心目中的比较大的AI绘图模型测评。我会从细节质量、审美(构图色彩等)、风格多样化、语义理解这四个维度来评测,每个维度3个Prompt,同时每个Prompt我会在AI绘图模型中roll3次,取效果最具有代表性的那个图,尽量减少偏见。
2024-12-13 17:44:01 -
Midjourney角色一致性命令 "cref "测评丨如何保持多个角色一致性
预告了好久的MJ角色一致性功能终于来了, 新的命令“ --cref ”与 样式参考 “--sref”功能类似,但它不是匹配参考样式,而是尝试让角色匹配 "角色参考 "图像,--cref 目前只适用于 niji 6 和 v6 模型。
2024-12-13 18:32:59