星空体育官网注册
集成解决方案 自研解决方案
首页 > 产品解决方案 > 自研解决方案
星空体育官网注册全球最强开源模型一夜易主1320亿参数推理飙升2倍
发布时间:2024-04-02 03:55:38 来源:星空官方网站入口 作者:星空体育网站入口

  就在刚刚,全球最强开源大模型王座易主,创业公司Databricks发布的DBRX,超越了Llama 2、Mixtral和Grok-1。MoE又立大功!这个过程只用了2个月,1000万美元,和3100块H100。

  它采用了细粒度MoE架构,而且每次输入仅使用360亿参数,实现了更快的每秒token吞吐量。

  这种独特的MoE架构,让DBRX成为开源模型的SOTA,推理速度比LLaMA 2-70B快了2倍!

  最重要的是,训练成本直接砍半!只用了1000万美元和3100块H100,Databricks就在2个月内肝出了DBRX。

  DBRX在语言理解、编程、数学和逻辑方面轻松击败了开源模型LLaMA2-70B、Mixtral,以及Grok-1。

  并且,DBRX还为开放社区和企业提供了仅限于封闭模型的API功能。现在,基本模型(DBRX Base)和微调模型(DBRX Instruct)的权重,已经在Hugging Face开放许可了。

  从今天开始,Databricks客户就可以通过API使用DBRX。它在Macbook Pro上都可跑,LLM很快能为个人设备提供支持了。

  而Databricks的员工激动地表示,过去3个月,朋友们周末约我都说「不行,这周不行我有事,但是又不能说有啥事」的日子终于结束了,DBRX就是我们加班加点搞出来的一头「怪兽」。

  还有网友表示,「如果实验室继续开源大型MoE模型,英伟达可能就需要推出最强Blackwell架构的消费级GPU了」。

  DBRX是一种基于Transformer纯的大模型,同样采用下一token预测进行训练。

  是的,这次立大功的,依然是MoE。在MoE中,模型的某些部分会根据查询的内容启动,这就大大提升了模型的训练和运行效率。

  这就提高了底层硬件的利用率,将将训练效率提高了30%到50%。不仅响应速度变快,还能减少所需的能源。

  具体来说,DBRX有16个不同的专家,在每层为每个token选择4个专家。Mixtral和Grok-1有8个专家,一个路由网络在每层为每个token选择2个专家。

  此外,DBRX还使用了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA),并使用tiktoken存储库中提供的GPT-4分词器。

  这个新的数据集,使用全套数据库工具开发,包括用于数据处理的ApacheSpark™和Databricks笔记本,用于数据管理和治理的Unity Catalog,以及用于实验追踪的MLFlow。

  团队使用了「课程学习」(curriculum learning)进行预训练,并在训练过程中改变数据组合,大大提高了模型质量。

  如下表1,在综合基准、编程和数学基准以及MMLU上,DBRX Instruct刷新了开源AI的SOTA。

  Databricks Model Gauntlet由30多项任务组成,涵盖了6个类别:世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程。

  尽管Grok-1的参数是DBRX的2.4倍,但DBRX在编程和数学方面的性能,均超越了排名第二的Grok-1。

  在上个季度,团队成员看到自家12,000多名客户群重大转变,即将专有模型替换为开源模型,以提高效率。

  但是,除了一个例外,DBRX Instruct在所有上下文长度和序列的所有部分的表现,都优于GPT-3.5 Turbo。

  这种效率是一系列改进的结果,包括使用MoE架构、网络的其他架构更改、更好的优化策略、更好的分词,以及更好的预训练数据。

  总体而言,MoE模型的推理速度,它们的总参数所显示的要快。这是因为它们对每个输入使用的参数相对较少。

  比如,DBRX的质量比LLaMA2-70B更高,而且由于活跃参数量大约是LLaMA2-70B的一半,DBRX推理吞吐量最多可快2倍。

  Mixtral是MoE模型改进的「帕累托最优」(pareto frontier)另一个点:它比DBRX小,质量相对较低,但实现了更高的推理吞吐量。

  企业可以在Databricks平台问DBRX,能在RAG系统中利用长上下文功能,还可以在自己的私有数据上构建定制的DBRX模型。

  因为DATABricks是完全基于数据库来构建DBRX的,因此每个企业用户都可以使用相同的工具和技术来创建或改进自己的定制化模型。

  用户可以通过Unity Catalog中集中管理训练数据,使用ApacheSpark和Lilac AI提供的工具和服务进行处理和清理。

  「我们超越了所有模型!」随着首席神经网络架构师、DBRX团队负责人Jonathan Frankle宣布这一结果,成员们爆发出热烈的欢呼和喝彩声。

  通过开源DBRX,Databricks进一步推动了开源运动,加入了Meta对抗OpenAI和谷歌的开源大潮。

  不过,Meta并没有公布Llama 2模型的一些关键细节,而Databricks会将最后阶段做出关键决策的过程全部公开,要知道,训练DBRX的过程,耗费了数百万美元。

  艾伦人工智能研究所的CEO AliFarhadi表示,AI模型的构建和训练,亟需更大的透明度。

  Databricks有理由选择开源。尽管谷歌等巨头过去一年里部署了AI,但行业内的许多大公司,还还没有在自己是数据上广泛使用大模型。

  在Databricks看来,金融、医药等行业的公司渴望类似ChatGPT的工具,但又担心将敏感数据发到云上。

  而Databricks将为客户定制DBRX,或者从头为他们的业务量身定做。对于大公司来说,构建DBRX这种规模模型的成本非常合理。

  为此,Databricks去年7月收购了初创公司MosaicML,引入了Frankle在内的多名技术人才。此前,两家公司内都没人构建过如此大的模型。

  OpenAI等公司,执着地追求更大的模型。但在Frankle看来,LLM重要的不仅仅是规模。

  而MosailML公司的员工,都是这门晦涩学问的专家,因此Databrick去年收购它时,对它的估值高达13亿美元。

  另外,数据对最终结果也有很大影响,或许也是因此,Databricks并没有公开数据细节,包括数据的质量、清洗、过滤和预处理。

  Databricks副总裁、MosaicML创始人兼CEO Naveen Rao表示:「你几乎可以认为,这是模型质量的重中之重。」

  两周前,Databricks的团队就遇到了一个涉及数百万美元的棘手问题:如何充分利用模型的潜能。

  在租用的3072个强大英伟达H100 GPU上训练模型两个月后,DBRX在多个基准测试中已经取得了卓越的成绩。但很快,他们可以使用的时间只剩下了最后一周。

  团队成员在Slack上互抛主意,其中一个提议是制作一个专门生成计算机代码的模型版本,或者是一个小型版本供业余爱好者尝试。

  团队还考虑了不再增加模型的大小,转而通过精心挑选的数据来提升模型在特定功能上的表现,这种方法称为课程学习。

  虽然讨论过程中大家都保持了友好,但随着各位工程师为自己青睐的方案力争上游,激烈的观点交锋不可避免。

  最终,Frankle巧妙地将团队的方向引向了以数据为中心的方法(课程学习)。两周后,这个决定显然带来了巨大的回报。

  他原本认为DBRX在生成计算机代码方面不会有特别突出的表现,因为团队并没有将重点放在这一领域。

  Eleuther AI的执行主任Stella Biderman说,几乎没有证据表明开源会增加安全风险。「我们并没有特别的理由相信,开放模型会比现有的封闭模型大幅增加风险。」

  此前,EleutherAI曾与Mozilla以及其他约50个组织和学者一道,向美国商务部长雷蒙多发出了一封公开信,要求她确保未来的人工智能监管为开源AI项目留出足够的发展空间。

  信中专家们相信,AI开源有利于经济增长,因为它们有助于初创企业和小企业接触到这项突破性的进展,还有助于加速科学研究。

  Frankle说,DBRX 除了为其他人工智能研究人员提供了一个新的模型和构建自己模型的有用技巧外,还有助于加深对AI实际工作原理的理解。

  Databricks团队计划研究模型在训练的最后阶段是如何变化的,也许能揭示一个强大的模型是如何涌现出额外能力的。


星空体育官网注册
上一篇:全球首个GDDR7显存测试系统问世Introspe 下一篇:机器学习测试:使用模拟器测试训练好的功能的见解和经