苹果正式开源OpenELM,公开代码、权重、数据集、训练全过程,大模型开源领域再迎一巨头!
4月24日,苹果开源了大语言模型OpenELM。这与微软刚开源的Phi-3 Mini类似,是一款专门针对手机等移动设备的模型。
OpenELM有指令微调和预训练两种模型,一共有2.7亿、4.5亿、11亿和30亿4种参数,提供生成文本、代码、翻译、总结摘要等功能。
虽然最小的参数只有2.7亿,但苹果使用了1.8万亿tokens的数据进行了预训练,这也是其能以小参数表现出超强性能的主要原因之一。
值得一提的是,苹果还把训练OpenELM模型的深度神经网络库CoreNet也开源了,仅1天多的时间Github就超过1100颗星。苹果的MobileOne、CVNets、MobileViT、FastVit等知名研究都是基于CoreNet完成的。
开源地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com
CoreNet地址:https://github.com/apple/corenet?ref=maginative.com
论文地址:https://arxiv.org/abs/2404.14619
目前,大模型领域主要分为开源和闭源两大阵营,国内外知名闭源的代表企业有OpenAI、Anthropic、谷歌、Midjourney、Udio、百度、科大讯飞、出门问问、月之暗面等。
开源阵营有Meta、微软、谷歌、百川智能、阿里巴巴、零一万物等。苹果作为手机闭源领域的领导者,本次却罕见地加入开源大模型阵营,可能在效仿谷歌的方式先通过开源拉拢用户,再用闭源产品去实现商业化营利。
不管咋说,苹果选择开源对于开发者、中小企业来说都是一个不错的福利。因为,与以往只提供模型权重和推理代码的做法不同,苹果发布了完整的训练、评估框架等。
主要内容包括数据准备、模型训练、微调以及评估流程,同时提供了多个预训练检查点和训练日志,可以让我们深度了解全球顶级科技公司的技术思想和开发流程。
OpenELM架构简单介绍
OpenELM采用了无编码器的transformer架构,并在多个方面进行了技术创新。OpenELM的使用了一种“层级缩放”策略,使得模型能够跨各个转换器层更有效地分配参数,能以最少的训练数据取得了更好的性能,同时极大提升准确率。
例如,11亿参数的OpenELM,比12亿参数的OLMo模型的准确率高出2.36%,而使用的预训练数据却只有OLMo的一半。
此外,OpenELM不使用任何全连接层中的可学习偏置参数,采用RMSNorm进行预归一化,并使用旋转位置嵌入编码位置信息。
OpenELM还通过分组查询注意力代替多头注意力,用SwiGLU FFN替换了传统的前馈网络,并使用了Flash注意力来计算缩放点积注意力,能以更少的资源来进行训练和推理。
训练流程与数据集
在训练流程中,苹果采用了CoreNet作为训练框架,并使用了Adam优化算法进行了35万次迭代训练。
苹果使用了批量大小为4096的小批量随机梯度下降进行模型参数更新,并设置了适当的学习率和权重衰减。
预训练数据集方面,OpenELM使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在内的公共数据集,一共约1.8万亿tokens数据。
此外,苹果使用了动态分词和数据过滤的方法,实现了实时过滤和分词,从而简化了实验流程并提高了灵活性。还使用了与Meta的Llama相同的分词器,以确保实验的一致性。
这次苹果真的是很有诚意的开源,一开到底所有内容都贡献出来了,家大业大就是敢玩。这也表明苹果进军大模型领域的决心,以后开源领域更热闹啦~
-
苹果正式开源OpenELM,公开代码、权重、数据集、训练全过程,大模型开源领域再迎一巨头!
4月24日,苹果开源了大语言模型OpenELM。这与微软刚开源的Phi-3 Mini类似,是一款专门针对手机等移动设备的模型。
2025-02-01 21:46:33 -
GPT-4现场被端侧小模型“暴打”,商汤日日新5.0:全面对标GPT-4 Turbo
够刺激,GPT-4竟然当众被“揍”了,甚至连还手的机会都没有:是的,就是在一场《街头霸王》游戏现场PK中,发生了这样的名场面。 而且二者还是不在一个“重量级”的那种:
2025-02-01 21:18:11 -
英伟达CEO黄仁勋亲自送货上门!全球首台DGX H200 GPU送抵OpenAI总部
当地时间4月24日,OpenAI总裁po图文称,英伟达在全球范围内的首块DGX H200正式交付给OpenAI,由英伟达CEO黄仁勋亲自配送。
2025-02-01 20:50:49 -
百度下架「百度百科」APP,业务重心转移至生成式AI与文心大模型
4月24日,百度公司宣布关闭旗下的百科全书APP“百度百科”,因为它已将更多资源转移到人工智能(AI)技术开发上。
2025-02-01 20:27:26 -
华为HDC 2024大会将发布盘古大模型5.0丨谷歌Gemini手机版将迎来多项功能更新丨马斯克xAI计划融资60亿美元
【AI奇点网2024年4月26日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-01 19:57:59 -
Stability AI宣布全球裁员10%以应对财务困境:此前合伙人CEO与核心研发骨干已离职
Stability AI 新上任的联席首席执行官 Shan Shan Wong 和 Christian Laforte 已经发布内部公开信,宣布要进行裁员,财源比例为 10%。
2025-02-01 19:29:47
-
商汤AI视频生成器如影使用方法_如影使用教程_AI视频生成测评
国内知名人工智能软件公司商汤科技近日宣布,“商汤如影SenseAvatar”数字人视频生成平台正式上线,产品愿景是“让每个人都可以轻松制作视频”,非常的直抒胸臆呀。
2024-12-17 03:24:28 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
openpose如何自定义角色_个性化角色姿势怎么定制_Controlnet深度解析
在设计角色姿势时,如何使用openpose进行姿势自定义,以及如何通过拍摄照片或使用第三方后期软件?同时,虚幻引擎对于角色姿势的编辑也很重要,本视频就并展示了如何使用优异商城中的免费资源来创建人物角色。
2024-12-19 11:43:51