DeepSpeed-Chat 完整的 RLHF 训练流程概述

2023年4月12日下午7:54 • 工具软件

为了实现无缝的训练体验，我们遵循 InstructGPT 论文的方法，并在 DeepSpeed-Chat 中整合了一个端到端的训练流程，如图 1 所示。

图 1: DeepSpeed-Chat 的 RLHF 训练流程图示，包含了一些可选择的功能。

我们的流程包括三个主要步骤：

步骤1：监督微调（SFT） —— 使用精选的人类回答来微调预训练的语言模型以应对各种查询；
步骤2：奖励模型微调 —— 使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独立的（通常比 SFT 小的）奖励模型（RW）；
步骤3：RLHF 训练 —— 利用 Proximal Policy Optimization（PPO）算法，根据 RW 模型的奖励反馈进一步微调 SFT 模型。

在步骤3中，我们提供了两个额外的功能，以帮助提高模型质量：

指数移动平均（EMA） —— 可以选择基于 EMA 的检查点进行最终评估
混合训练 —— 将预训练目标（即下一个单词预测）与 PPO 目标混合，以防止在像 SQuAD2.0 这样的公开基准测试中的性能损失

这两个训练功能，EMA 和混合训练，常常被其他的开源框架所忽略，因为它们并不会妨碍训练的进行。然而，根据 InstructGPT，EMA 通常比传统的最终训练模型提供更好的响应质量，而混合训练可以帮助模型保持预训练基准解决能力。因此，我们为用户提供这些功能，以便充分获得 InstructGPT 中描述的训练体验，并争取更高的模型质量。

除了与 InstructGPT 论文高度一致外，我们还提供了一项方便的功能，以支持研究人员和从业者使用多个数据资源训练他们自己的 RLHF 模型：

数据抽象和混合能力： DeepSpeed-Chat 能够使用多个不同来源的数据集训练模型以获得更好的模型质量。它配备了（1）一个抽象数据集层，以统一不同数据集的格式；以及（2）数据拆分/混合功能，以便多个数据集在 3 个训练阶段中被适当地混合然后拆分。

在我们之前的章节中，你可以看到使用整个 DeepSpeed-Chat 训练模型在多轮对话中的表现。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun246070.html

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

利用 DeepSpeed-Chat 的 RLHF API 自定义你自己的 RLHF 训练流程

上一篇 2023年4月12日

DeepSpeed Hybrid Engine —— 统一的高效混合引擎，为 RLHF 训练提供动力并进行优化

下一篇 2023年4月12日

工具软件

Microsoft、谷歌和人工智能巨头在人工智能服务中加强儿童保护措施

为了打击人工智能（AI）技术的潜在滥用，Microsoft和谷歌宣布承诺在其生成式人工智能服务中实施新的儿童安全措施。这些承诺是与致力于打击儿童性虐待的非营利组织 Thorn 和 …

2024年4月25日
工具软件

Microsoft 通过最新的修补程序更新解决了 Exchange Server 问题，并添加了 ECC、HMA 支持

Microsoft 宣布发布修补程序更新，旨在解决在安装 2024 年 3 月安全更新后影响 Exchange 服务器的几个问题。除了修复这些问题之外，2024 年 4 月修补程序…

2024年4月25日
如何自定义有声播放器控件

Audible 有几个设置，可帮助您控制在应用程序上收听有声读物的方式。在播放控件所在的 Audible Player 上，暂停/播放、向前/向后跳过、速度和计时器等默认选项完成了…

2024年4月25日 • 工具软件
如何在WhatsApp聊天中固定和取消固定消息

在聊天中固定消息是 WhatsApp 更重要的功能之一。这是突出显示地址和群聊规则等关键信息的好方法，因此用户只需轻轻一按即可将其定向到它。由于最近的更新，您最多可以在 Whats…

2024年4月25日 • 工具软件
工具软件

Adobe 的 VideoGigaGAN 项目可以将模糊的视频变成高清

Adobe 的人们开发了一种生成式 AI 模型，该模型很快就会让您将视频升级到原始分辨率的八倍。Adobe在最近发表的一篇名为VideoGigaGAN的论文中声称，该模型远远优于过…

2024年4月25日
工具软件

如何通过电子邮件将 Windows 共享发送到 Gmail

Microsoft已经有一段时间了附近的共享和链接共享到其他应用程序等功能，但是通过电子邮件将Windows共享发送到Gmail的功能是新的，将大大改善您的工作流程。尽管还有其他…

2024年4月23日
已解决：帐户图片错误此图片无法保存

帐户头像错误。当您尝试在 Windows 上为用户帐户设置个人资料图片时，屏幕上出现此图片无法保存错误消息，任何人都可能发生此图片。除了基本身份识别外，设置个人资料图片还可以帮助…

2024年4月19日 • 工具软件
工具软件

WhatsApp将很快列出“最近在线”的联系人

像任何公司一样，WhatsApp希望您尽可能多地使用其消息传递应用程序。为此，它正在实施一些功能，以促进用户与其联系人之间的互动。您很快就能看到您的哪些联系人最近在线。 WABet…

2024年4月19日
工具软件

如何在WhatsApp上使用聊天过滤器

当所有对话都集中在一个“聊天”部分下时，找到正确的WhatsApp聊天并不总是那么容易。幸运的是，WhatsApp 现在引入了“聊天过滤器”，可让您在打开 WhatsApp 后立即…

2024年4月18日
在iMovie中导出时出错：修复

尝试在iMovie中编辑假期剪辑，但在导出最终输出时不断出现错误？您会松一口气，因为您不是唯一一个在iMovie中遇到此类问题的人。在iMovie中，编辑素材的导出过程可能会变得棘…

2024年4月17日 • 工具软件
工具软件

Android 上的新“查找我的设备”网络是什么，它如何提供帮助

早在 Google I/O 2023 上宣布，Android 上的新“查找我的设备”网络终于来了。但这不仅仅是对当前“查找我的设备”服务的简单更新;这是一个升级，实际上可以让你找到…

2024年4月11日
已解决：跨设备体验主机未安装

Microsoft 在将您的手机作为 PC 上的网络摄像头与跨设备体验主机连接方面做得很好，但它未安装可能不在您的宾果卡上。跨设备体验主机未安装或停滞在挂起状态可能只是安装故障。…

2024年4月8日 • 工具软件
VirtualBox 无法覆盖机器文件夹：修复

在 VirtualBox 中设置虚拟机是一个简单的过程。但是，即使在执行此操作时，它也会在设置屏幕上抛出此错误消息“无法覆盖计算机文件夹”。由于已经存在计算机文件夹，会弹出此问题。…

2024年4月8日 • 工具软件
Outlook在尝试打印时没有响应：修复

一些用户求助于社区，因为每当他们尝试打印电子邮件或附件时，Outlook 似乎都会冻结。现在，应用程序有时会卡顿并不罕见。但是，如果每次尝试打印时Outlook都显示突然崩溃的迹象…

2024年4月8日 • 工具软件
音板未显示在 Discord 上：如何修复

使用 Soundboard 可以增强您在 Discord 服务器中的游戏体验。但是，如果您的每个朋友都可以使用它，那么除了您之外，没有音板可能会令人沮丧。但是，别担心。我们已经详细…

2024年4月7日 • 工具软件
工具软件

OpenAI 让您无需注册即可使用 ChatGPT

OpenAI 正在消除使用 ChatGPT 的所有障碍，甚至不需要注册。该公司周一宣布，它允许用户无需注册即可开始使用聊天机器人。这里的目的是“让任何对人工智能能力感到好奇的人都能…

2024年4月6日
Opera 成为第一个集成本地 AI 模型的主要浏览器

Opera 正在将对 150 种本地 LLM（大型语言模型）变体的支持集成到 Opera One（该公司的 AI 集成浏览器）的开发人员流中。添加对 AI 的实验性本地支持是浏览器…

2024年4月6日 • 工具软件
如何在 Opera One Developer 上启用和使用本地 AI 模型

Opera 最近宣布将本地 AI 模型集成到其 Opera One 浏览器中。随着这一发展，Opera 成为第一个内置 AI 模型的主要浏览器，您现在可以从 150 个大型语言模型…

2024年4月6日 • 工具软件
如何在 Kindle 上调整睡眠定时器

厌倦了每次从快速阅读休息回来时唤醒 Kindle？多亏了更新，您现在可以简单地调整 Kindle 在关闭屏幕之前的等待时间。这个“睡眠定时器”是一种新的 Kindle 设置，让用户…

2024年4月6日 • 工具软件
Stock Gallery 应用程序在 OnePlus、小米、Oppo 和 Realme 手机上集成了 Google 相册

大多数 Android 手机都有两个图库应用程序——一个由 OEM 预装，另一个由 Google 相册安装。但是由于最近的更新，用户将能够将Google相册集成到其OEM的图库应用…

2024年4月6日 • 工具软件
工具软件

WhatsApp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

WhatsApp 通过定期更新不断改进。最近的报道表明，WhatsApp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，WhatsApp 还改进了平台上的视频播…

2024年4月6日
Android 15 可能会拒绝安装为 Android 6.0 Marshmallow 构建的应用程序

Android 15 已经凭借我们在开发者预览版上看到的功能成为新闻。现在，有报道称 Android 15 还将提高可安装应用程序的标准。在 Android 14 之前，可以毫无…

工具软件 2024年4月6日
如何从 Android 上的照片创建 WhatsApp 贴纸

\ WhatsApp 贴纸自首次推出以来一直风靡一时。但是，人们永远无法拥有足够的好东西，这就是为什么WhatsApp现在允许您从图库或聊天中的任何图像创建自己独特的贴纸。以下是在…

2024年4月6日 • 工具软件
WhatsApp 将很快允许群组成员创建和管理群组活动

WhatsApp 开发其群组活动功能已经有一段时间了。从表面上看，它将允许群组成员创建事件、在群组中安排视频和音频通话、响应事件并获得提醒。这是一项重大更新，将使团体和社区能够轻松…

2024年4月6日 • 工具软件
工具软件

如何控制 Instagram 上的政治内容过滤器

在世界一半人口投票的一年里，政治内容几乎不容忽视。但Instagram希望让你更好地控制是否在平台上向你推荐政治内容。如果您已经关注了与政治相关的帐户，Instagram 不会妨碍…

2024年4月6日

DeepSpeed-Chat 完整的 RLHF 训练流程概述

相关推荐