Mistral AI Mixtral 8x7B 专家混合 AI 模型令人印象深刻的基准揭示

2023年12月13日下午9:33 • 工具软件

Mistral-AI-mixture-of-experts-model-MoE-creates-impressive-benchmarks.webp

Mistral AI 最近推出了一种创新的专家混合模型，该模型在人工智能领域掀起了波澜。这个新模型现在可以通过 Perplexity AI 免费获得，在开源社区的帮助下进行了微调，使其成为与成熟的 GPT-3.5 等产品竞争的有力竞争者。该模型的突出特点是它能够提供高性能，同时可能只需要 4 GB 的 VRAM，这要归功于保持其有效性的先进压缩技术。这一突破表明，即使是那些硬件资源有限的人，也可以很快获得最先进的人工智能功能。Mistral AI 解释了更多关于新 Mixtral 8x7B 的信息：

“今天，该团队很自豪地发布了 Mixtral 8x7B，这是一款具有开放权重的高质量稀疏专家模型（SMoE）。在 Apache 2.0 下获得许可。Mixtral 在大多数基准测试中的表现优于 Llama 2 70B，推理速度提高了 6 倍。它是具有宽松许可证的最强开放重量模型，也是成本/性能权衡方面整体上的最佳模型。特别是，它在大多数标准基准测试中与 GPT3.5 相当或优于 GPT<>.<>。

Mistral AI 发布 Mixtral 8x7B 标志着人工智能领域的重大进步，特别是在稀疏专家模型（SMoE）的开发方面。这个模型，Mixtral 8x7B，是一个高质量的SMoE，具有开放权重，在Apache 2.0下获得许可。它的性能值得注意，在大多数基准测试中都优于 Llama 2 70B，同时提供 6 倍的推理速度。这使得 Mixtral 成为具有宽松许可的领先开放权重模型，并且在成本和性能权衡方面非常高效，甚至在标准基准测试上匹配或超过 GPT3.5。

Mixtral 8x7B 展示了几个令人印象深刻的功能。它可以处理 32k 令牌的上下文，并支持多种语言，包括英语、法语、意大利语、德语和西班牙语。它在代码生成方面的性能很强，可以微调为指令遵循模型，在 MT-Bench 上达到 8.3 分。

Mistral AI 专家混合模型 MoE

Mistral AI 模型的基准成就不仅仅是令人印象深刻的统计数据;它们代表了向前迈出的一大步，可以超越 GPT-3.5 等现有模型的性能。免费提供如此强大的工具的潜在影响是巨大的，对于那些有兴趣将人工智能用于各种应用程序的人来说，这是一个令人兴奋的前景。该模型在具有挑战性的数据集（如 H SWAG 和 MML）上的表现尤其值得注意。这些基准对于衡量模型的优势和确定需要进一步改进的领域至关重要。

Mixtral 的架构特别值得一提。它是一个仅解码器稀疏专家混合网络，使用前馈模块，从 8 组不同的参数中进行选择。每一层的路由器网络选择两组来处理每个令牌，并累加组合它们的输出。虽然 Mixtral 有 46.7B 的总参数，但它每个代币只使用 12.9B 参数，保持了较小模型的速度和成本效益。该模型根据来自开放网络的数据进行预训练，同时训练专家和路由器。

与 Llama 2 系列和 GPT3.5 等其他型号相比，Mixtral 在大多数基准测试中都与这些型号相当或优于这些型号。此外，它表现出更多的真实性和更少的偏见，正如它在 TruthfulQA 和 BBQ 基准测试中的表现所证明的那样，与 Llama 2 相比，它显示出更高百分比的真实响应和更少的偏见。

此外，Mistral AI 还与原始模型一起发布了 Mixtral 8x7B Instruct。该版本通过监督微调和直接偏好优化（DPO）进行了优化，以实现精确的指令跟踪，在 MT-Bench 上达到 8.30 分。这使它成为最好的开源模型之一，在性能上可与 GPT3.5 相媲美。对于需要高审核级别的应用程序，可以提示该模型排除某些输出，从而展示其灵活性和适应性。

为了支持 Mixtral 的部署和使用，已向 vLLM 项目提交了更改，其中包含 Megablocks CUDA 内核以实现高效推理。此外，Skypilot 支持在云实例中部署 vLLM 端点，增强了 Mixtral 在各种应用程序中的可访问性和可用性

AI 微调和训练

模型的训练和微调过程（包括指导数据集）在其成功中起着至关重要的作用。这些数据集旨在提高模型理解和遵循指令的能力，使其更加用户友好和高效。开源社区的持续贡献对于该模型的持续发展至关重要。他们对项目的承诺确保了该模型保持最新状态并继续改进，体现了集体进步和知识共享的精神。

随着人们对 Mistral AI 更精致的版本和更新的预期越来越高，专家混合模型已经确立了自己作为一项重大发展的地位。随着持续的支持和发展，它有可能重新定义人工智能性能的基准。

Mistral AI 的混合专家模型是 AI 领域向前迈出的重要一步。凭借其强大的基准测试分数、通过 Perplexity AI 免费提供以及专门的开源社区的支持，该模型完全有能力产生持久的影响。它仅可在 4 GB 的 VRAM 上运行，这为更广泛地使用先进的 AI 技术提供了令人兴奋的机会。Mixtral 8x7B 的发布代表了 AI 向前迈出的重要一步，尤其是在开发高效和强大的 SMoE 方面。它的性能、多功能性以及在处理偏见和真实性方面的进步使其成为人工智能技术领域的显着补充。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun270772.html

AI Mixtral 模型

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

Google Bard 让您的生活更轻松的 8 种方式

上一篇 2023年12月13日下午9:32

使用 Midjourney、Chat-GPT 和 Figma 构建网站

下一篇 2023年12月13日下午9:33

如何在Windows本地运行Microsoft Phi-3 AI

Microsoft 的 Phi-3 系列语言模型终于来了。就它们的尺寸而言，它们绝对是一个级别的差异，并且已经证明在许多方面比其他最近发布的型号（如 Llama 3 和 Mistr…

2024年4月29日 • Win 11
如何在 Opera One Developer 上启用和使用本地 AI 模型

Opera 最近宣布将本地 AI 模型集成到其 Opera One 浏览器中。随着这一发展，Opera 成为第一个内置 AI 模型的主要浏览器，您现在可以从 150 个大型语言模型…

2024年4月6日 • 工具软件
三星 Galaxy S22 也可能获得 AI 的好处！

众所周知，三星计划为其更高端的设备带来一系列 AI 功能，其中包括 Galaxy S23 系列、Galaxy Z Fold 5 和 Z Flip 5 以及 Galaxy Tab S…

最新资讯 2024年4月2日
工具软件

Mistral AI 创始人 Arthur Mensch 讨论开源 AI

Mistral AI 创始人 Arthur Mensch 讨论开源 AI 在 AI Ascent 大会上，Mistral AI 的创始人 Arthur Mensch 提出了一个令人…

2024年3月29日
工具软件

使用 Pretzel AI 轻松进行 Excel 数据分析

使用 Pretzel AI 轻松进行 Excel 数据分析如果您希望利用人工智能来帮助您轻松分析 Microsoft Excel 中的数据，您可能会对 Pretzel AI 感兴…

2024年3月28日
最新资讯

英特尔 AI PC 开发人员计划宣布

英特尔 AI PC 开发人员计划宣布英特尔公司在推进个人电脑人工智能（AI）方面取得了重大飞跃，推出了两项关键举措。到 2025 年，AI PC 开发人员计划和独立硬件供应商…

2024年3月28日
工具软件

什么是 Groq AI，为什么它很重要？它的工程师解释说

Groq 是一家以生产最快的 AI 芯片 LPU 而闻名的公司，在半导体行业取得了重大进展。Groq 的两位工程师 Andrew Ling（编译器软件副总裁）和 Igor Arso…

2024年3月26日
工具软件

NVIDIA 针对 AGI 的新 Foundation Agent 计划

NVIDIA 针对 AGI 的新 Foundation Agent 计划 NVIDIA 的“Foundation Agent”计划由 Jim Fan 博士领导，旨在开发多功能和通用…

2024年3月26日
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
工具软件

OpenAI Q Star 理论 AI 模型解读

OpenAI Q Star 理论 AI 模型解读如果您有兴趣了解有关 OpenAI Q* Star AI 模型的更多信息，该模型显然正在开发中。本快速指南概述了我们目前所知道…

2024年3月26日
我该使用哪款 AI？AI 模型的超能力与现状

一年多来，GPT-4 一直是占主导地位的 AI 模型，显然比任何其他可用的 LLM 系统都要聪明得多。这种情况在上个月发生了变化，现在有三个GPT-4级模型，它们都为自己的聊天机器…

2024年3月26日 • 工具软件
DepthFM: 使用深度流匹配技术的快速单目深度预测

DepthFM: 使用深度流匹配技术的快速单目深度预测一个深度图分析模型，通过流匹配（Flow Matching）技术，可以有效地实现这一目标，因为它在解空间中形成的直线轨迹既高…

工具软件 2024年3月26日
VoiceCraft：超过XTTS的语音模型

VoiceCraft：超过XTTS的语音模型 VOICECRAFT模型介绍： VOICECRAFT是一个先进的神经编解码语言模型，专门用于语音编辑和零样本文本到语音（TTS）任务。…

工具软件 2024年3月26日
字节发布了AnimateDiff-Lightning 模型

字节发布了AnimateDiff-Lightning 模型字节发布了AnimateDiff-Lightning 模型，只需要 4-8 步的推理就可以生成质量非常不错的视频。跟 …

工具软件 2024年3月26日
工具软件

Creatie：主打AI功能的UI设计软件

Creatie：主打AI功能的UI设计软件我去 Creatie 这个 AI UI 设计工具有点强啊，做的相当完整，基本上可以当做一个加上了 AI 功能的 FIgma。而且全部都…

2024年3月26日
工具软件

Suno 发布了自己的歌曲生成模型V3版本

Suno 发布了自己的歌曲生成模型V3版本 Suno 正式发布了他们的 V3 音乐生成模型，现在所有人都可以使用。 V3 改进的内容主要是： ◦ 音质更佳，带来更加清晰动听的音频体…

2024年3月26日
微软Microsoft

Microsoft 扩展游戏 AI 团队，以推进 Windows 之后 Xbox 上的 AI 创新

Microsoft 希望 AI 无处不在，并且已经在其产品中添加了 AI 功能，包括 Windows 和 Office。2023 年 8 月，证实了这家科技巨头的“Xbox 上的 …

2024年3月24日
工具软件

有关 OpenAI Q-STAR 的更多细节揭晓

有关 OpenAI Q-STAR 的更多细节揭晓关于 OpenAI 的 Q-STAR 有一个未经证实的泄漏，这是一个对话系统，据说利用基于能量的模型（EBM）来生成响应。据报…

2024年3月24日
工具软件

NVIDIA 针对 AGI 的新 Foundation Agent 计划

NVIDIA 针对 AGI 的新 Foundation Agent 计划 NVIDIA 的“Foundation Agent”计划由 Jim Fan 博士领导，旨在开发多功能和通用…

2024年3月24日
工具软件

7 种未知的 AI 工具，可提高您的生产力和工作流程

7 种未知的 AI 工具，可提高您的生产力和工作流程如果您一直在寻找可以帮助您提高生产力、工作流程等的新 AI 工具。您可能对有关更不寻常的人工智能（AI）工具的快速指南感兴…

2024年3月21日
工具软件

如何使用 Haiper 免费制作 AI 视频

如何使用 Haiper 免费制作 AI 视频 Haiper AI 是一款突破性的 AI 视频生成器，最近进入市场，为用户提供了完全免费创建令人惊叹的逼真视频的能力。Haiper A…

2024年3月17日
工具软件

如何在没有互联网连接的情况下私下运行人工智能

如何在没有互联网连接的情况下私下运行人工智能如果您正在寻找一种方式，在您自己的本地计算机或家庭网络上享受触手可及的人工智能（AI）的力量，而不必担心损害您的隐私。您现在可以在…

2024年3月15日
工具软件

GFlowNets是人工智能的未来吗，它们是什么？

GFlowNets是人工智能的未来吗，它们是什么？ GFlowNets 是在 Yoshua Bengio 的指导下开发的，代表了人工智能（AI）领域的一种新颖训练算法，与 Tr…

2024年3月15日
工具软件

使用 Python 构建高级 AI 代理和助手

使用 Python 构建高级 AI 代理和助手 2024 年 3 月 15 日下午 1：18 朱利安·霍西本指南提供了有关使用 Python 和检索增强生成（RAG）构建高级…

2024年3月15日
工具软件

Stable Diffusion 和 ComfyUI AI 艺术生成器初学者指南

Stable Diffusion 和 ComfyUI AI 艺术生成器初学者指南如果您想开始使用 Stable Diffusion 和 ComfyUI，乍一看非常复杂。您会很高兴…

2024年3月15日

Mistral AI Mixtral 8x7B 专家混合 AI 模型令人印象深刻的基准揭示

Mistral AI 专家混合模型 MoE

AI 微调和训练

相关推荐