Mistral AI Mixtral 8x7B 专家混合 AI 模型令人印象深刻的基准揭示

Mistral AI 最近推出了一种创新的专家混合模型,该模型在人工智能领域掀起了波澜。这个新模型现在可以通过 Perplexity AI 免费获得,在开源社区的帮助下进行了微调,使其成为与成熟的 GPT-3.5 等产品竞争的有力竞争者。该模型的突出特点是它能够提供高性能,同时可能只需要 4 GB 的 VRAM,这要归功于保持其有效性的先进压缩技术。这一突破表明,即使是那些硬件资源有限的人,也可以很快获得最先进的人工智能功能。Mistral AI 解释了更多关于新 Mixtral 8x7B 的信息:

“今天,该团队很自豪地发布了 Mixtral 8x7B,这是一款具有开放权重的高质量稀疏专家模型 (SMoE)。在 Apache 2.0 下获得许可。Mixtral 在大多数基准测试中的表现优于 Llama 2 70B,推理速度提高了 6 倍。它是具有宽松许可证的最强开放重量模型,也是成本/性能权衡方面整体上的最佳模型。特别是,它在大多数标准基准测试中与 GPT3.5 相当或优于 GPT<>.<>。

Mistral AI 发布 Mixtral 8x7B 标志着人工智能领域的重大进步,特别是在稀疏专家模型 (SMoE) 的开发方面。这个模型,Mixtral 8x7B,是一个高质量的SMoE,具有开放权重,在Apache 2.0下获得许可。它的性能值得注意,在大多数基准测试中都优于 Llama 2 70B,同时提供 6 倍的推理速度。这使得 Mixtral 成为具有宽松许可的领先开放权重模型,并且在成本和性能权衡方面非常高效,甚至在标准基准测试上匹配或超过 GPT3.5。

Mixtral 8x7B 展示了几个令人印象深刻的功能。它可以处理 32k 令牌的上下文,并支持多种语言,包括英语、法语、意大利语、德语和西班牙语。它在代码生成方面的性能很强,可以微调为指令遵循模型,在 MT-Bench 上达到 8.3 分。

Mistral AI 专家混合模型 MoE

Mistral AI 模型的基准成就不仅仅是令人印象深刻的统计数据;它们代表了向前迈出的一大步,可以超越 GPT-3.5 等现有模型的性能。免费提供如此强大的工具的潜在影响是巨大的,对于那些有兴趣将人工智能用于各种应用程序的人来说,这是一个令人兴奋的前景。该模型在具有挑战性的数据集(如 H SWAG 和 MML)上的表现尤其值得注意。这些基准对于衡量模型的优势和确定需要进一步改进的领域至关重要。

Mixtral 的架构特别值得一提。它是一个仅解码器稀疏专家混合网络,使用前馈模块,从 8 组不同的参数中进行选择。每一层的路由器网络选择两组来处理每个令牌,并累加组合它们的输出。虽然 Mixtral 有 46.7B 的总参数,但它每个代币只使用 12.9B 参数,保持了较小模型的速度和成本效益。该模型根据来自开放网络的数据进行预训练,同时训练专家和路由器。

与 Llama 2 系列和 GPT3.5 等其他型号相比,Mixtral 在大多数基准测试中都与这些型号相当或优于这些型号。此外,它表现出更多的真实性和更少的偏见,正如它在 TruthfulQA 和 BBQ 基准测试中的表现所证明的那样,与 Llama 2 相比,它显示出更高百分比的真实响应和更少的偏见。

此外,Mistral AI 还与原始模型一起发布了 Mixtral 8x7B Instruct。该版本通过监督微调和直接偏好优化 (DPO) 进行了优化,以实现精确的指令跟踪,在 MT-Bench 上达到 8.30 分。这使它成为最好的开源模型之一,在性能上可与 GPT3.5 相媲美。对于需要高审核级别的应用程序,可以提示该模型排除某些输出,从而展示其灵活性和适应性。

为了支持 Mixtral 的部署和使用,已向 vLLM 项目提交了更改,其中包含 Megablocks CUDA 内核以实现高效推理。此外,Skypilot 支持在云实例中部署 vLLM 端点,增强了 Mixtral 在各种应用程序中的可访问性和可用性

AI 微调和训练

模型的训练和微调过程(包括指导数据集)在其成功中起着至关重要的作用。这些数据集旨在提高模型理解和遵循指令的能力,使其更加用户友好和高效。开源社区的持续贡献对于该模型的持续发展至关重要。他们对项目的承诺确保了该模型保持最新状态并继续改进,体现了集体进步和知识共享的精神。

随着人们对 Mistral AI 更精致的版本和更新的预期越来越高,专家混合模型已经确立了自己作为一项重大发展的地位。随着持续的支持和发展,它有可能重新定义人工智能性能的基准。

Mistral AI 的混合专家模型是 AI 领域向前迈出的重要一步。凭借其强大的基准测试分数、通过 Perplexity AI 免费提供以及专门的开源社区的支持,该模型完全有能力产生持久的影响。它仅可在 4 GB 的 VRAM 上运行,这为更广泛地使用先进的 AI 技术提供了令人兴奋的机会。Mixtral 8x7B 的发布代表了 AI 向前迈出的重要一步,尤其是在开发高效和强大的 SMoE 方面。它的性能、多功能性以及在处理偏见和真实性方面的进步使其成为人工智能技术领域的显着补充。

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun270772.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年12月13日 下午9:32
下一篇 2023年12月13日 下午9:33

相关推荐