xAI Grok提供动力的引擎是Grok-1

2023年11月6日下午8:56 • 工具软件

Grok 是一个以《银河系漫游指南》为蓝本的 AI，因此几乎可以回答任何事情，更难的是，甚至可以建议要问什么问题！

Grok 旨在以一点机智的方式回答问题，并且具有叛逆的倾向，所以如果您讨厌幽默，请不要使用它！

Grok 的一个独特而根本的优势是它通过 X 平台实时了解世界。它还将回答大多数其他人工智能系统拒绝的辛辣问题。

Grok 仍然是一个非常早期的测试版产品——这是我们在 2 个月的培训中所能做到的最好的产品——所以期待它在您的帮助下每周都能迅速改进。

谢谢
xAI团队

我们为什么要建造 Grok

在xAI，我们希望创造人工智能工具，帮助人类寻求理解和知识。

通过创建和改进Grok，我们的目标是：

收集反馈并确保我们正在构建能够最大限度地造福全人类的 AI 工具。我们认为，设计对各种背景和政治观点的人都有用的人工智能工具非常重要。我们还希望在遵守法律的前提下，通过我们的人工智能工具为我们的用户提供支持。我们与Grok的目标是在公开场合探索和展示这种方法。
赋能研究和创新：我们希望 Grok 成为任何人的强大研究助手，帮助他们快速访问相关信息、处理数据并提出新想法。

我们的最终目标是让我们的人工智能工具协助追求理解。

Grok-1之旅

为Grok提供动力的引擎是Grok-1，这是我们在过去四个月中开发的前沿LLM。在这段时间里，Grok-1经历了多次迭代。

在宣布 xAI 之后，我们训练了一个具有 0 亿个参数的原型 LLM （Grok-33）。这个早期模型在标准 LM 基准测试上接近 LLaMA 2 （70B）功能，但只使用了一半的训练资源。在过去的两个月里，我们在推理和编码能力方面取得了重大改进，最终推出了 Grok-1，这是一种功能更强大的最先进的语言模型，在 HumanEval 编码任务中实现了 63.2%，在 MMLU 上实现了 73%。

为了了解我们对 Grok-1 所做的能力改进，我们使用一些旨在衡量数学和推理能力的标准机器学习基准进行了一系列评估。

GSM8k：中学数学单词问题，（Cobbe 等人，2021 年），使用思维链提示。

MMLU：多学科多项选择题（Hendrycks 等人，2021 年），提供了 5 个镜头的上下文示例。

HumanEval：Python 代码完成任务，（Chen 等人，2021 年），pass@1评估为零样本。

数学：用 LaTeX 编写的初中和高中数学问题（Hendrycks 等人，2021 年），提示固定的 4 次提示。

基准	格罗克-0 （33B）	LLaMa 2 70B	拐点-1	GPT-3.5型	格罗克-1	棕榈 2	Claude 2	GPT-4型
GSM8k的	56.8% 8 发	56.8% 8 发	62.9% 8 发	57.1% 8 发	62.9% 8 发	80.7% 8 发	88.0% 8 发	92.0% 8 发
MMLU系列	65.7% 5 发	68.9% 5 发	72.7% 5 发	70.0% 5 发	73.0% 5 发	78.0% 5 发	75.0% 5 次 + CoT	86.4% 5 发
HumanEval	39.7% 0 发	29.9% 0 发	35.4% 0 发	48.1% 0 发	63.2% 0 发	–	70% 0 次	67% 0 次
数学	15.7% 4 发	13.5% 4 发	16.0% 4 发	23.5% 4 发	23.9% 4 发	34.6% 4 发	–	42.5% 4 发

在这些基准测试中，Grok-1 表现出强劲的结果，超过了其计算类中的所有其他模型，包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源进行训练的模型才能超越它。这展示了我们在 xAI 以极高的效率训练 LLM 方面取得的快速进展。

由于这些基准可以在网络上找到，我们不能排除我们的模型是无意中训练的，因此我们在 2 年匈牙利全国高中数学期末考试上对我们的模型（以及 Claude-4 和 GPT-2023）进行了手工评分，该期末考试于 59 月底发布，在我们收集了数据集后。Grok 以 C （2%）通过了考试，而 Claude-55 获得了相同的成绩（4%），GPT-68 以 0% 的成绩获得了 B。所有模型均在温度为1.<>和相同提示下进行评估。必须指出的是，我们没有为这次评估做出任何调整。这个实验是对我们的模型从未明确调整过的数据集的“现实生活”测试。

人工分级评估	格罗克-0	GPT-3.5型	Claude 2	格罗克-1	GPT-4型
匈牙利国家高中数学考试（2023年<>月）	37% 1 次	41% 1 次	55% 1 次	59% 1 次	68% 1 次

我们在模型卡中提供了 Grok-1 重要技术细节的摘要。

xAI 的工程设计

在深度学习研究的前沿，必须像构建数据集和学习算法一样谨慎地构建可靠的基础设施。为了创建 Grok，我们构建了一个基于 Kubernetes、Rust 和 JAX 的自定义训练和推理堆栈。

法学硕士培训就像一列货运列车在前方轰鸣;如果一节车厢脱轨，整个列车就会被拖离轨道，很难再次直立。GPU 失败的方式有很多种：制造缺陷、连接松动、配置不正确、内存芯片退化、偶尔的随机位翻转等等。在训练时，我们连续数月在数以万计的 GPU 之间同步计算，并且由于规模的原因，所有这些故障模式都变得频繁。为了克服这些挑战，我们采用了一套定制的分布式系统，确保立即识别并自动处理每种类型的故障。在 xAI，我们将最大限度地提高每瓦有用计算能力作为我们工作的重点。在过去的几个月里，我们的基础设施使我们能够最大限度地减少停机时间，即使在硬件不可靠的情况下也能保持较高的模型浮点运算利用率（MFU）。

Rust 已被证明是构建可扩展、可靠和可维护的基础设施的理想选择。它提供了高性能、丰富的生态系统，并防止了人们通常会在分布式系统中发现的大多数错误。鉴于我们的团队规模较小，基础设施的可靠性至关重要，否则，维护工作会扼杀创新。Rust 让我们相信，任何代码修改或重构都可能产生工作程序，这些程序将在最少的监督下运行数月。

我们现在正在为模型能力的下一次飞跃做准备，这将需要可靠地协调数以万计的加速器上的训练运行，运行互联网规模的数据管道，并在 Grok 中构建新的功能和工具。如果这听起来让您感到兴奋，请在此处申请加入团队。

xAI的研究

我们允许 Grok 访问搜索工具和实时信息，但与所有在下一个标记预测上训练的 LLM 一样，我们的模型仍然会产生错误或矛盾的信息。我们认为，实现可靠的推理是解决当前系统局限性的最重要研究方向。在这里，我们想重点介绍一些我们在xAI最感兴趣的有前途的研究方向：

通过工具辅助实现可扩展的监督。人类的反馈是必不可少的。但是，提供一致且准确的反馈可能具有挑战性，尤其是在处理冗长的代码或复杂的推理步骤时。人工智能可以通过查找来自不同来源的参考资料、使用外部工具验证中间步骤以及在必要时寻求人工反馈来协助进行可扩展的监督。我们的目标是在模型的帮助下最有效地利用人工智能导师的时间。
与形式验证集成，确保安全性、可靠性和接地。为了创建能够对现实世界进行深入推理的人工智能系统，我们计划在不那么模棱两可和更可验证的情况下发展推理技能。这使我们能够在没有人类反馈或与现实世界交互的情况下评估我们的系统。这种方法的一个主要直接目标是为代码的正确性提供正式的保证，特别是在人工智能安全的形式可验证方面。
长期上下文理解和检索。在特定环境中有效发现有用知识的训练模型是产生真正智能系统的核心。我们正在研究可以在需要时发现和检索信息的方法。
对抗性鲁棒性。对抗性示例表明，优化人员可以很容易地利用人工智能系统中的漏洞，无论是在训练期间还是在服务期间，都会导致它们犯严重的错误。这些漏洞是深度学习模型长期存在的弱点。我们对提高LLM、奖励模型和监控系统的鲁棒性特别感兴趣。
多模式功能。目前，格罗克没有其他感官，例如视觉和听觉。为了更好地帮助用户，我们将为Grok配备这些不同的感官，以实现更广泛的应用，包括实时交互和辅助。

我们相信，人工智能具有巨大的潜力，可以为社会贡献重要的科学和经济价值，因此我们将努力制定可靠的保障措施，防止灾难性的恶意使用。我们相信尽最大努力确保人工智能仍然是一股向善的力量。

如果您和我们一样乐观，并希望为我们的使命做出贡献，请在此处申请加入团队。

抢先体验 Grok

我们在美国为有限数量的用户提供试用我们的 Grok 原型并提供有价值的反馈，这将有助于我们在更广泛地发布之前改进其功能。您可以在此处加入 Grok 候补名单。此版本只是 xAI 的第一步。展望未来，我们有一个令人兴奋的路线图，并将在未来几个月内推出新的功能和特性。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun264644.html

Grok 模型训练

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

埃隆·马斯克（Elon Musk）的新 Grok AI 将首先提供给所有 X Premium Plus 订阅者

上一篇 2023年11月6日下午8:54

马斯克的 X.AI 正式发布

下一篇 2023年11月7日上午9:05

如何在 Opera One Developer 上启用和使用本地 AI 模型

Opera 最近宣布将本地 AI 模型集成到其 Opera One 浏览器中。随着这一发展，Opera 成为第一个内置 AI 模型的主要浏览器，您现在可以从 150 个大型语言模型…

2024年4月6日 • 工具软件
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
工具软件

OpenAI Q Star 理论 AI 模型解读

OpenAI Q Star 理论 AI 模型解读如果您有兴趣了解有关 OpenAI Q* Star AI 模型的更多信息，该模型显然正在开发中。本快速指南概述了我们目前所知道…

2024年3月26日
我该使用哪款 AI？AI 模型的超能力与现状

一年多来，GPT-4 一直是占主导地位的 AI 模型，显然比任何其他可用的 LLM 系统都要聪明得多。这种情况在上个月发生了变化，现在有三个GPT-4级模型，它们都为自己的聊天机器…

2024年3月26日 • 工具软件
DepthFM: 使用深度流匹配技术的快速单目深度预测

DepthFM: 使用深度流匹配技术的快速单目深度预测一个深度图分析模型，通过流匹配（Flow Matching）技术，可以有效地实现这一目标，因为它在解空间中形成的直线轨迹既高…

工具软件 2024年3月26日
VoiceCraft：超过XTTS的语音模型

VoiceCraft：超过XTTS的语音模型 VOICECRAFT模型介绍： VOICECRAFT是一个先进的神经编解码语言模型，专门用于语音编辑和零样本文本到语音（TTS）任务。…

工具软件 2024年3月26日
字节发布了AnimateDiff-Lightning 模型

字节发布了AnimateDiff-Lightning 模型字节发布了AnimateDiff-Lightning 模型，只需要 4-8 步的推理就可以生成质量非常不错的视频。跟 …

工具软件 2024年3月26日
工具软件

Suno 发布了自己的歌曲生成模型V3版本

Suno 发布了自己的歌曲生成模型V3版本 Suno 正式发布了他们的 V3 音乐生成模型，现在所有人都可以使用。 V3 改进的内容主要是： ◦ 音质更佳，带来更加清晰动听的音频体…

2024年3月26日
工具软件

有关 OpenAI Q-STAR 的更多细节揭晓

有关 OpenAI Q-STAR 的更多细节揭晓关于 OpenAI 的 Q-STAR 有一个未经证实的泄漏，这是一个对话系统，据说利用基于能量的模型（EBM）来生成响应。据报…

2024年3月24日
工具软件

GFlowNets是人工智能的未来吗，它们是什么？

GFlowNets是人工智能的未来吗，它们是什么？ GFlowNets 是在 Yoshua Bengio 的指导下开发的，代表了人工智能（AI）领域的一种新颖训练算法，与 Tr…

2024年3月15日
工具软件

Stable Diffusion 和 ComfyUI AI 艺术生成器初学者指南

Stable Diffusion 和 ComfyUI AI 艺术生成器初学者指南如果您想开始使用 Stable Diffusion 和 ComfyUI，乍一看非常复杂。您会很高兴…

2024年3月15日
工具软件

OpenAI 首席技术官透露可能的 Sora AI 视频生成器发布日期

OpenAI 首席技术官透露可能的 Sora AI 视频生成器发布日期 OpenAI 首席技术官（CTO） Mira Murati 在接受《华尔街日报》采访时，对 OpenAI …

2024年3月15日
工具软件

展示了新的 Runway AI 文本到视频环境运动控制功能

Runway 是一种文本到视频的 AI 服务，它正在改变我们创建视频和动画的方式，它具有强大的新功能，允许用户以令人难以置信的精度为静态图像添加运动。这种环境控制设置对于使用该平台…

2024年1月2日
工具软件

I2V-Adapter：直接从图片生成视频

I2V-Adapter：直接从图片生成视频快手也发布了一个视频生成模型 I2V-Adapter。主要用于从图片获取信息直接生成视频，这个项目可以与已有的 SD 生态比如Conto…

2024年1月2日
“大型语言模型”和“LLM”这些术语将变得不那么常见

“大型语言模型”和“LLM”这些术语将变得不那么常见在当今人工智能领域，“大型语言模型”（及其缩写LLM）经常被用作“任何先进人工智能模型”的简称。这是可以理解的，因为许多最初崭…

工具软件 2023年12月30日
最先进的封闭模型将继续以显著优势胜过最先进的开放模型

最先进的封闭模型将继续以显著优势胜过最先进的开放模型当今人工智能讨论中的一个重要话题是围绕开源和闭源人工智能模型的辩论。虽然大多数尖端人工智能模型开发者——如OpenAI、Goo…

工具软件 2023年12月30日
工具软件

OpenAI 正式推出的 6 个 ChatGPT 提示工程原理

OpenAI 最近推出了一份有价值的指南，旨在帮助用户充分利用与 ChatGPT 的互动。对于任何希望从 AI 获得更精确和相关答案的人来说，本指南都是一个重要的资源，无论他们的技…

2023年12月28日
工具软件

OpenAI 正式推出的 6 个 ChatGPT 提示工程原理

OpenAI 最近推出了一份有价值的指南，旨在帮助用户充分利用与 ChatGPT 的互动。对于任何希望从 AI 获得更精确和相关答案的人来说，本指南都是一个重要的资源，无论他们的技…

2023年12月28日
工具软件

如何微调 Mixtral 8x7B Mistral Ai Mixture of Experts （MoE） AI 模型

当谈到增强 Mixtral 8x7B 的功能时，Mixtral 8x7B 是一种拥有惊人的 870 亿个参数的人工智能模型，这项任务似乎令人生畏。该模型属于专家混合（MoE）类…

2023年12月26日
微软Microsoft

Microsoft Bing Chat 免费获得 ChatGPT-4 Turbo，Code Interpreter 即将迎来重大升级

您现在可以在 Bing Chat （Microsoft Copilot）上免费使用 ChatGPT-4 Turbo 以及插件支持。 Microsoft 正在推出 Bing Cha…

2023年12月26日
TextDiffuser-2：为文本渲染释放语言模型的力量

TextDiffuser-2：为文本渲染释放语言模型的力量可以稳定在扩散模型中生成指定位置和风格的英文文本，它是借助的微调后的大语言模型来规划文本布局，以及编码文本的位置。

工具软件 2023年12月26日
工具软件

Tripo3d：AI生成3D模型

Tripo3d：AI生成3D模型可以说是现在最强大的3D模型生成工具，一经发布就把几个老牌产品打趴了，支持从文字直接生成3D模型，也支持图片生成。

2023年12月26日
微软Microsoft

Microsoft Bing Chat 免费获得 ChatGPT-4 Turbo，Code Interpreter 即将迎来重大升级

您现在可以在 Bing Chat （Microsoft Copilot）上免费使用 ChatGPT-4 Turbo 以及插件支持。 Microsoft 正在推出 Bing Cha…

2023年12月25日
工具软件

AI 3D模型和图像创建者Stable Zero123由Stability AI揭晓

Stability AI 推出了一个新的 AI 3D 模型和图像创建器，它将改变我们从简单的 2D 图像生成 3D 内容的方式。这款名为 Stable Zero123 的新 3D …

2023年12月25日
工具软件

使用 Unsloth 更快地训练 LLM – 在 24 小时而不是 30 天内训练自定义 ChatGPT AI

训练大型语言模型是 AI 开发的关键部分，但这也是一个可能需要花费大量时间并消耗大量计算能力的过程。这就是 Moonshot 的 Unsloth 的用武之地，可让您更快地训练 LL…

2023年12月22日