马斯克突然开源Grok:3140亿参数巨无霸,免费可商用
马斯克说到做到:
旗下大模型Grok现已开源!
代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是一个3140亿参数的混合专家模型——
就是说,这是当前开源模型中参数量最大的一个。
消息一出,Grok-1的GitHub仓库已揽获4.5k标星,并且还在库库猛涨。
表情包们,第一时间被吃瓜群众们热传了起来。
而ChatGPT本Chat,也现身Grok评论区,开始了和马斯克新一天的斗嘴……
那么,话不多说,来看看马斯克这波为怼OpenAI,究竟拿出了什么真东西。
Grok-1说开源就开源
此次开源,xAI发布了Grok-1的基本模型权重和网络架构。
具体来说是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用(例如对话)进行微调。
结构上,Grok-1采用了混合专家(MoE)架构,包含8个专家,总参数量为314B(3140亿),处理Token时,其中的两个专家会被激活,激活参数量为86B。
单看这激活的参数量,就已经超过了密集模型Llama 2的70B,对于MoE架构来说,这样的参数量称之为庞然大物也毫不为过。
不过,在GitHub页面中,官方也提示,由于模型规模较大(314B参数),需要有足够GPU和内存的机器才能运行Grok。
这里MoE层的实现效率并不高,选择这种实现方式是为了避免验证模型的正确性时需要自定义内核。
模型的权重文件则是以磁力链接的形式提供,文件大小接近300GB。
而且这个“足够的GPU”,要求不是一般的高——YC上有网友推测,如果是8bit量化的话,可能需要8块H100.
除了参数量前所未有,在工程架构上,Grok也是另辟蹊径——
没有采用常见的Python、PyTorch或Tensorflow,而是选用了Rust编程语言以及深度学习框架新秀JAX。
而在官方通告之外,还有许多大佬通过扒代码等方式揭露了Grok的更多技术细节。
比**自斯坦福大学的Andrew Kean Gao,就针对Grok的技术细节进行了详细解释。
首先,Grok采用了使用旋转的embedding方式,而不是固定位置embedding,旋转位置的embedding大小为 6144.与输入embedding相同。
当然,还有更多的参数信息:
窗口长度为8192tokens,精度为bf16
Tokenizer vocab大小为131072(2^17),与GPT-4接近;
embedding大小为6144(48×128);
Transformer层数为64.每层都有一个解码器层,包含多头注意力块和密集块;
key value大小为128;
多头注意力块中,有48 个头用于查询,8 个用于KV,KV 大小为 128;
密集块(密集前馈块)扩展因子为8.隐藏层大小为32768.
除了Gao,还有英伟达AI科学家Ethan He(何宜晖)指出,在专家系统的处理方面,Grok也与另一知名开源MoE模型Mixtral不同——
Grok对全部的8个专家都应用了softmax函数,然后从中选择top2专家,而Mixtral则是先选定专家再应用softmax函数。
而至于有没有更多细节,可能要看官方会不会发布进一步的消息了。
另外,值得一提的是,Grok-1采用的是Apache 2.0 license,也就是说,商用友好。
为怼OpenAI怒而Open
大家伙知道,马斯克因为OpenAI不Open,已经向旧金山高等法院提起诉讼,正式把OpenAI给告了。
不过当时马斯克自己搞的Grok也并没有开源,还只面向?的付费用户开放,难免被质疑双标。
大概是为了堵上这个bug,马斯克在上周宣布:
本周,xAI将开源Grok。
虽然时间点上似乎又是马斯克一贯的迟到风格,但xAI的这波Open如今看来确实不是口嗨,还是给了网友们一些小小的震撼。
有xAI新晋员工感慨说:
这将是激动人心的一年,快系好安全带吧。
有人已经期待起Grok作为一个开源模型,进一步搅动大模型竞争的这一池水。
不过,也并不是每个人都买马斯克的账:
不过说归说,多线并进的马斯克,最近大事不止开源Grok这一件。
作为多公司、多业务的时间管理大师,马斯克旗下,特斯拉刚刚全线推出了端到端纯视觉的自动驾驶系统FSD V12.所有北美车主用户,都OTA更新升级,可以实现所有道路场景的任意点到点AI驾驶。
SpaceX则完成了第三次星舰发射,虽然最后功败垂成,但又史无前例地迈进了一大步。
推特则开源了推荐算法,然后迎来了一波自然流量新高峰。
别人都是 you can you up, no can no bb…马斯克不一样,bb up不选择,边喊边干,还都干成了。
-
马斯克突然开源Grok:3140亿参数巨无霸,免费可商用
马斯克说到做到:旗下大模型Grok现已开源!代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是一个3140亿参数的混合专家模型——就是说,这是当前开源模型中参数量最大的一个。
2025-02-07 13:08:45 -
Sora视频大模型训练数据被质疑非法采集,OpenAI CTO接受外媒专访面对敏感提问表现大翻车
OpenAI再陷巨大争议!最近,OpenAI CTO Murati在华尔街日报的采访中大翻车,已经在网上掀起了轩然大波。大量网友怀疑OpenAI使用违规数据训练Sora。
2025-02-07 12:41:44 -
外媒曝:苹果公司正在与谷歌、OpenAI洽谈合作,为了让iPhone尽快用上最好的AI大模型
知情人士透露,苹果公司就在 iPhone 中内置谷歌 Gemini 人工智能引擎进行谈判,为达成一项将震撼 AI 行业的重磅协议奠定了基础。
2025-02-07 12:21:26 -
英伟达发布AI算力芯片B200丨高通发布第三代骁龙8s处理器丨李开复:目前最好的大模型已达人类平均IQ的三倍
【AI奇点网2024年3月19日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-07 11:56:46 -
重磅!英伟达正式官宣「AI核弹级」芯片B100,性能比H100强两倍的H200将于2024年第二季度出货
重磅!英伟达刚刚发布“AI核弹”,英伟达在发布H200时就顺手透露,下一代B100芯片将在2024年下半年推出,性能已经“望不到头”,全网直呼炸裂。
2025-02-07 11:09:12 -
李开复:最好的AI大模型已经达到人类平均智商的三倍,“杀手级应用”已经出现
李开复分享了对当下大模型生态的看法,他认为,事实上“杀手级应用”已经出现了,拥有日活亿级的体量,只是暂时在中国还没有出现。
2025-02-07 10:39:21
-
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34 -
pika1.0首测超越gen-2_pika最新发布_pika文生图怎么用
Pika 1 0正式上线后,拿到内测资格的网友们已经玩疯了!有人用它生成了一个姜黄色头发女孩和她的姜黄色猫的短片。以往,因为一致性的难题,用AI视频很难做出优秀的动漫作品。但是Pika 1 0 实在是太给人惊喜了!
2024-12-13 17:39:08 -
AI绘图模型测评_Meta Imagine发布_Meta Imagine最新地址
针对Meta Imagine,Midjourney,Adobe Firefly,Dalle,这四个我心目中的比较大的AI绘图模型测评。我会从细节质量、审美(构图色彩等)、风格多样化、语义理解这四个维度来评测,每个维度3个Prompt,同时每个Prompt我会在AI绘图模型中roll3次,取效果最具有代表性的那个图,尽量减少偏见。
2024-12-13 17:44:01 -
Midjourney角色一致性命令 "cref "测评丨如何保持多个角色一致性
预告了好久的MJ角色一致性功能终于来了, 新的命令“ --cref ”与 样式参考 “--sref”功能类似,但它不是匹配参考样式,而是尝试让角色匹配 "角色参考 "图像,--cref 目前只适用于 niji 6 和 v6 模型。
2024-12-13 18:32:59