1320亿参数,性能超LLaMA2、Grok-1!开源大模型DBRX正式上线!
3月28日,著名数据和AI平台Databricks在官网正式开源大模型——DBRX。
DBRX是一个专家混合模型(MoE)有1320亿参数,能生成文本/代码、数学推理等,有基础和微调两种模型。
根据DBRX在MMLU、HumanEval和 GSM8K公布的测试数据显示,不仅性能超过了LLaMA2-70B和马斯克最近开源的Grok-1.推理效率比LLaMA2-70B快2倍,总参数却只有Grok-1的三分之一,是一款功能强算力消耗低的大模型。
基础模型:https://huggingface.co/databricks/dbrx-base
微调模型:https://huggingface.co/databricks/dbrx-instruct
Github:https://github.com/databricks/dbrx
在线demo:https://huggingface.co/spaces/databricks/dbrx-instruct
Databricks作为数据管理领域的超级独角兽,为了抓住生成式AI的风口,2023年6月26日曾以13亿美元的天价,收购了大模型开源平台MosaicML。
MosaicML曾在2023年5月5日发布了类ChatGPT开源大语言模型MPT-7B。(开源地址:https://huggingface.co/mosaicml/mpt-7b)该项目具备可商业化、高性能、算力消耗低、1T训练数据等技术优势。
MPT-7B只进行了大约10天的训练,零人工干预,训练成本仅用了20万美元。性能却打败了LLaMA-7B、StablelM-7B 、Cerebras-13B等当时知名开源模型。
截至目前,MPT-7B的下载量已超过300万次,而Databricks此次发布的DBRX在MPT-7B基础之上进行了大幅度优化并且将算力需求降低了4倍。
DBRX简单介绍
DBRX是一款基于Transformer的MoE架构大模型,1320亿参数中的360亿参数处于长期激活状态。
这与其它开源的MoE类型模型如Mixtral、Grok-1相比,DBRX使用了数量更多的小专家模型。DBRX有16个专家并选择4个,而Mixtral和Grok-1有8个专家并选择了2个。
DBRX使用了12T的文本和代码数据(支持中文),支持 32k上下文窗口,并在3072 个 英伟达的 H100 上进行了3个月的预训练。
DBRX除了与开源模型进行了对比之外,还与OpenAI的GPT系列、谷歌的Gemini以及Anthropic最新发布的Claude 3系列进行了同台竞技。
MMLU、HellaSwag、WinoGrande、HumanEval等综合测试结果显示,DBRX推理、数学解答、语言理解、代码等能力超过了GPT-3.5.性能与谷歌的Gemini 1.0 Pro 性能差不多。
什么是专家混合模型
MoE模型全称为Mixture of Experts,其核心原理是将一个庞大的神经网络分解为多个相对独立的小型子网络(即专家),每个专家负责处理输入数据的某些方面。
这种架构设计使得MoE模型能够高效利用计算资源,避免对所有参数进行无谓的计算。主要包括门控制机制、专家网络和聚合器三大模块
门控机制:这是MoE模型的核心模块,负责决定每个输入应该由哪个或哪几个专家处理。
门控机制会根据输入数据的特征分配权重给不同的专家,这个过程是动态的,意味着不同的输入会根据其内容被分配给最合适的专家处理。例如,Grok-1模型中只有大约25%的参数被实际使用或“激活”。
专家网络:这些是模型中的子网络,每个都有自己特定的参数配置。在传统的MoE模型中,这些专家网络可以是结构相同但参数不同的多个神经网络。每个网络都专注于模型任务的一个方面或输入数据的一个子集。
聚合器:一旦各个专家给出了自己对于输入的处理结果,聚合器则负责将这些结果综合起来,形成最终的输出。聚合的方式可以是简单的加权和、投票机制或者更复杂的融合策略。
MoE是开发、训练超过千亿参数大模型常用的架构,例如,GPT-4、Palm 2等著名大模型使用的都是该架构。
关于Databricks
Databricks创立于2013年,总部位于美国旧金山,在全球多个国家、地区设有办事处。其企业客户超过10000家,包括众多财富500强企业。
Databricks主要提数据智能分析服务,帮助企业、个人用户快速挖掘数据的商业价值。
-
1320亿参数,性能超LLaMA2、Grok-1!开源大模型DBRX正式上线!
3月28日,著名数据和AI平台Databricks在官网正式开源大模型——DBRX。DBRX是一个专家混合模型(MoE)有1320亿参数,能生成文本 代码、数学推理等,有基础和微调两种模型。
2025-02-05 14:54:55 -
Adobe发布20多种面向企业的生成式AI服务丨Adobe打造每秒20张的图像生成架构DMD丨Stability AI发布文生图API
【AI奇点网2024年3月29日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-05 14:31:20 -
马斯克 xAI 推出 Grok-1.5 大语言模型:提升推理能力,可处理128k上下文
3 月 29 日消息,马斯克旗下人工智能公司 xAI 今天在官方博客中宣布,正式推出 Grok-1 5 大语言模型。
2025-02-05 14:09:04 -
马斯克旗下xAI发布Grok-1.5大模型丨OpenAI推出人声音频生成模型丨360开源360智脑70亿参数模型
【AI奇点网2024年4月1日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-05 13:46:35 -
ChatGPT今起无需注册就可直接使用丨DALL·E加入图像可编辑功能丨马斯克:人工智能有20%几率毁灭人类
【AI奇点网2024年4月2日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2025-02-05 13:16:54 -
谷歌:8GB内存的Pixel 8手机将无缘运行端侧的AI大模型Gemini Nano
日前,谷歌公司针对旗下的手机端侧大模型Gemini Nano发布了一个特殊的声明:声称旗下Pixel系列手机里边,只有?Pixel 8 Pro能够运行Gemini。
2025-02-05 12:55:47
-
商汤AI视频生成器如影使用方法_如影使用教程_AI视频生成测评
国内知名人工智能软件公司商汤科技近日宣布,“商汤如影SenseAvatar”数字人视频生成平台正式上线,产品愿景是“让每个人都可以轻松制作视频”,非常的直抒胸臆呀。
2024-12-17 03:24:28 -
怎么快速给模特换装_怎么用stable diffusion给模特换装
本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人物设计的实战中
2024-12-23 13:57:15 -
万万没想到,兵马俑都开始跳「科目三」:阿里云通义千问APP打造“全民舞王”视频创作工具,实测效果大赞
兵马俑跳《科目三》,是我万万没想到的。有人借助了阿里云之前走红的AI视频生成技术——「Animate Anyone」,生成出来了这个舞蹈片段。
2024-12-13 16:46:26 -
AIGC落地实践!四招帮你快速搞定运营设计
回顾这一年,随着 AIGC 浪潮的爆发,在掌握AI工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满
2024-12-18 16:57:17 -
stable diffusion初识_stable diffusion跟其他工具有什么区别]
关于Stable Diffusion的内容很多,在本篇教程里,我会先为你介绍Stable Diffusion模型的运行原理、发展历程和相较于其他AI绘图应用的区别。
2024-12-24 13:45:31 -
如何使用 ChatGPT 调试代码
当您的代码出现问题时,您可以向 ChatGPT 提供故障代码和问题描述。AI 工具将尝试识别并纠正问题。
2024-12-31 12:01:41 -
stable SR脚本安装_stable diffusion脚本网站
上节课我们讲的4xUltraSharp是不是觉得已经很强了! 那么如果我拿出Stable SR脚本你应该如何应对呢?
2024-12-31 13:49:18 -
怎么设置关键词权重_怎么设置Multi Prompts
AI 绘画,顾名思义就是利用人工智能进行绘画,是人工智能生成内容(AIGC)的一个应用场景。其主要原理简单来说就是收集大量已有作品数据,通过算法对它们进行解析,最后再生成新作品,Midjourney是一个由同名研究实验室开发的人工智能程序。
2025-01-03 10:00:57 -
零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
2024-12-17 12:53:01 -
思维脑图工具也能创作AI绘画作品,如何使用博思白板进行AI绘画
博思白板boardmix的创作平台提供多种登录方式,最方便要属直接微信扫码登录,然后绑定手机号实名制。再点击页面正中央紫色的按钮「免费使用」,你就可以进入博思白板boardmix的内容创作操作台。
2024-12-26 09:08:34