如何微调 OpenAI 的 Whisper 语音 AI 以进行转录

2024年1月23日下午5:07 • 工具软件

如何微调 OpenAI 的 Whisper 语音 AI 以进行转录

OpenAI Whisper 是一种自动语音识别（ASR） 系统。它旨在将口语转换为文本。Whisper 接受过各种互联网音频的培训，其中包括各种口音、环境和语言。这种训练方法旨在提高其在不同语音环境中的准确性和鲁棒性。

要了解其重要性，重要的是要考虑 ASR 技术面临的挑战。传统的 ASR 系统经常在口音、背景噪音和不同语言方面苦苦挣扎。Whisper在各种数据集上的训练解决了这些问题，旨在建立一个更具包容性和有效性的系统。在快节奏的技术世界中，语音转文本应用程序在广泛的用途中变得越来越重要，从帮助残疾人到简化业务工作流程。

OpenAI 的 Whisper 处于这项技术的最前沿，为将口语转换为书面文本提供了强大的工具。但是，为了充分利用 Whisper，必须对模型进行微调以满足特定需求，例如识别各种口音、扩展其词汇量以及添加对其他语言的支持。本文将借鉴实用建议和专家见解，为您提供必要的指导，以提高 Whisper 的转录准确性。

当您开始使用 Whisper 时，您会发现它有不同的尺寸，最小的模型有 3900 万个参数，最大的模型拥有 15 亿个参数。第一步是为您的项目选择合适的模型大小。这种选择至关重要，因为它会影响模型的性能以及您需要多少计算能力。如果你正在处理各种语音类型或需要高精度，你可能会倾向于使用更大的模型，前提是你有资源来支持它们。

微调 Whisper 语音 AI

微调任何语音转文本模型的基础是强大的数据集。此数据集应该是与准确的文本转录配对的录音集合。当您将数据集放在一起时，多样性是关键。您需要包括一系列语音、口音和方言，以及可能与您的项目相关的任何专业术语。例如，如果您计划转录医学会议，则数据集应包含医学术语。通过涵盖广泛的语音范围，您可以确保 Whisper 可以处理您将要处理的音频类型。

数据集准备就绪后，您将继续使用脚本进行微调过程。这些脚本将指导您完成微调步骤，从准备数据到训练模型和评估其性能。您可以在各种在线存储库中找到这些脚本，其中一些是开源且免费使用的，而另一些则是商业产品。

训练是数据集教 Whisper 调整其参数以更好地理解您感兴趣的语音的阶段。训练后，评估模型的学习情况至关重要。为此，您将通过查看单词错误率等指标来执行此操作，该指标告诉您模型出错的频率。此评估步骤至关重要，因为它显示了您的微调是否成功以及可能有改进空间的地方。

为了进一步提高转录准确性，您可以采用其他技术，例如使用 GPT 模型进行转录后校正或采用适配器和低秩近似等方法。这些方法使你能够有效地更新模型，而无需从头开始重新训练它。经过微调和全面测试后，您将适配器与基本 Whisper 模型集成。然后，更新后的模型就可以用于实际使用，可以应用于各种实际场景，从语音控制助手到自动转录服务。

为了获得最佳结果，不断优化模型非常重要。确保您的数据集反映了您要转录的语音类型。注意声音的 Mel Spectrum 表示，这对于 Whisper 使用的 Transformer 模型的准确性至关重要。定期评估模型的性能并进行迭代改进，以使其保持最佳性能。

OpenAI 耳语

通过执行这些步骤，您可以自定义 Whisper 以满足您的特定转录需求。无论您是在处理需要理解多种语言的项目，还是需要准确转录技术讨论，微调 Whisper 都可以帮助您获得适合您的应用程序的高质量结果。通过精心准备和不断完善，Whisper 可以成为您语音转文本工具包中的宝贵工具。

Whisper 是一种自动语音识别（ASR）系统，使用从网络收集的 680,000 小时多语言和多任务监督数据进行训练。我们表明，使用如此庞大而多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外，它还支持多种语言的转录，以及从这些语言翻译成英语。OpenAI 已经开源了模型和推理代码，作为构建有用应用程序和进一步研究鲁棒语音处理的基础。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun277808.html

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

如何使用 AI 创建体育多媒体、回放、统计数据等

上一篇 2024年1月23日下午5:00

如何阻止Siri在iPhone上随机拨打电话

下一篇 2024年1月23日下午5:07

工具软件

Microsoft、谷歌和人工智能巨头在人工智能服务中加强儿童保护措施

为了打击人工智能（AI）技术的潜在滥用，Microsoft和谷歌宣布承诺在其生成式人工智能服务中实施新的儿童安全措施。这些承诺是与致力于打击儿童性虐待的非营利组织 Thorn 和 …

2024年4月25日
工具软件

Microsoft 通过最新的修补程序更新解决了 Exchange Server 问题，并添加了 ECC、HMA 支持

Microsoft 宣布发布修补程序更新，旨在解决在安装 2024 年 3 月安全更新后影响 Exchange 服务器的几个问题。除了修复这些问题之外，2024 年 4 月修补程序…

2024年4月25日
如何自定义有声播放器控件

Audible 有几个设置，可帮助您控制在应用程序上收听有声读物的方式。在播放控件所在的 Audible Player 上，暂停/播放、向前/向后跳过、速度和计时器等默认选项完成了…

2024年4月25日 • 工具软件
如何在WhatsApp聊天中固定和取消固定消息

在聊天中固定消息是 WhatsApp 更重要的功能之一。这是突出显示地址和群聊规则等关键信息的好方法，因此用户只需轻轻一按即可将其定向到它。由于最近的更新，您最多可以在 Whats…

2024年4月25日 • 工具软件
工具软件

Adobe 的 VideoGigaGAN 项目可以将模糊的视频变成高清

Adobe 的人们开发了一种生成式 AI 模型，该模型很快就会让您将视频升级到原始分辨率的八倍。Adobe在最近发表的一篇名为VideoGigaGAN的论文中声称，该模型远远优于过…

2024年4月25日
工具软件

如何通过电子邮件将 Windows 共享发送到 Gmail

Microsoft已经有一段时间了附近的共享和链接共享到其他应用程序等功能，但是通过电子邮件将Windows共享发送到Gmail的功能是新的，将大大改善您的工作流程。尽管还有其他…

2024年4月23日
已解决：帐户图片错误此图片无法保存

帐户头像错误。当您尝试在 Windows 上为用户帐户设置个人资料图片时，屏幕上出现此图片无法保存错误消息，任何人都可能发生此图片。除了基本身份识别外，设置个人资料图片还可以帮助…

2024年4月19日 • 工具软件
工具软件

WhatsApp将很快列出“最近在线”的联系人

像任何公司一样，WhatsApp希望您尽可能多地使用其消息传递应用程序。为此，它正在实施一些功能，以促进用户与其联系人之间的互动。您很快就能看到您的哪些联系人最近在线。 WABet…

2024年4月19日
工具软件

如何在WhatsApp上使用聊天过滤器

当所有对话都集中在一个“聊天”部分下时，找到正确的WhatsApp聊天并不总是那么容易。幸运的是，WhatsApp 现在引入了“聊天过滤器”，可让您在打开 WhatsApp 后立即…

2024年4月18日
在iMovie中导出时出错：修复

尝试在iMovie中编辑假期剪辑，但在导出最终输出时不断出现错误？您会松一口气，因为您不是唯一一个在iMovie中遇到此类问题的人。在iMovie中，编辑素材的导出过程可能会变得棘…

2024年4月17日 • 工具软件
工具软件

Android 上的新“查找我的设备”网络是什么，它如何提供帮助

早在 Google I/O 2023 上宣布，Android 上的新“查找我的设备”网络终于来了。但这不仅仅是对当前“查找我的设备”服务的简单更新;这是一个升级，实际上可以让你找到…

2024年4月11日
已解决：跨设备体验主机未安装

Microsoft 在将您的手机作为 PC 上的网络摄像头与跨设备体验主机连接方面做得很好，但它未安装可能不在您的宾果卡上。跨设备体验主机未安装或停滞在挂起状态可能只是安装故障。…

2024年4月8日 • 工具软件
VirtualBox 无法覆盖机器文件夹：修复

在 VirtualBox 中设置虚拟机是一个简单的过程。但是，即使在执行此操作时，它也会在设置屏幕上抛出此错误消息“无法覆盖计算机文件夹”。由于已经存在计算机文件夹，会弹出此问题。…

2024年4月8日 • 工具软件
Outlook在尝试打印时没有响应：修复

一些用户求助于社区，因为每当他们尝试打印电子邮件或附件时，Outlook 似乎都会冻结。现在，应用程序有时会卡顿并不罕见。但是，如果每次尝试打印时Outlook都显示突然崩溃的迹象…

2024年4月8日 • 工具软件
音板未显示在 Discord 上：如何修复

使用 Soundboard 可以增强您在 Discord 服务器中的游戏体验。但是，如果您的每个朋友都可以使用它，那么除了您之外，没有音板可能会令人沮丧。但是，别担心。我们已经详细…

2024年4月7日 • 工具软件
工具软件

OpenAI 让您无需注册即可使用 ChatGPT

OpenAI 正在消除使用 ChatGPT 的所有障碍，甚至不需要注册。该公司周一宣布，它允许用户无需注册即可开始使用聊天机器人。这里的目的是“让任何对人工智能能力感到好奇的人都能…

2024年4月6日
Opera 成为第一个集成本地 AI 模型的主要浏览器

Opera 正在将对 150 种本地 LLM（大型语言模型）变体的支持集成到 Opera One（该公司的 AI 集成浏览器）的开发人员流中。添加对 AI 的实验性本地支持是浏览器…

2024年4月6日 • 工具软件
如何在 Opera One Developer 上启用和使用本地 AI 模型

Opera 最近宣布将本地 AI 模型集成到其 Opera One 浏览器中。随着这一发展，Opera 成为第一个内置 AI 模型的主要浏览器，您现在可以从 150 个大型语言模型…

2024年4月6日 • 工具软件
如何在 Kindle 上调整睡眠定时器

厌倦了每次从快速阅读休息回来时唤醒 Kindle？多亏了更新，您现在可以简单地调整 Kindle 在关闭屏幕之前的等待时间。这个“睡眠定时器”是一种新的 Kindle 设置，让用户…

2024年4月6日 • 工具软件
Stock Gallery 应用程序在 OnePlus、小米、Oppo 和 Realme 手机上集成了 Google 相册

大多数 Android 手机都有两个图库应用程序——一个由 OEM 预装，另一个由 Google 相册安装。但是由于最近的更新，用户将能够将Google相册集成到其OEM的图库应用…

2024年4月6日 • 工具软件
工具软件

WhatsApp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

WhatsApp 通过定期更新不断改进。最近的报道表明，WhatsApp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，WhatsApp 还改进了平台上的视频播…

2024年4月6日
Android 15 可能会拒绝安装为 Android 6.0 Marshmallow 构建的应用程序

Android 15 已经凭借我们在开发者预览版上看到的功能成为新闻。现在，有报道称 Android 15 还将提高可安装应用程序的标准。在 Android 14 之前，可以毫无…

工具软件 2024年4月6日
如何从 Android 上的照片创建 WhatsApp 贴纸

\ WhatsApp 贴纸自首次推出以来一直风靡一时。但是，人们永远无法拥有足够的好东西，这就是为什么WhatsApp现在允许您从图库或聊天中的任何图像创建自己独特的贴纸。以下是在…

2024年4月6日 • 工具软件
WhatsApp 将很快允许群组成员创建和管理群组活动

WhatsApp 开发其群组活动功能已经有一段时间了。从表面上看，它将允许群组成员创建事件、在群组中安排视频和音频通话、响应事件并获得提醒。这是一项重大更新，将使团体和社区能够轻松…

2024年4月6日 • 工具软件
工具软件

如何控制 Instagram 上的政治内容过滤器

在世界一半人口投票的一年里，政治内容几乎不容忽视。但Instagram希望让你更好地控制是否在平台上向你推荐政治内容。如果您已经关注了与政治相关的帐户，Instagram 不会妨碍…

2024年4月6日

如何微调 OpenAI 的 Whisper 语音 AI 以进行转录

微调 Whisper 语音 AI

OpenAI 耳语

相关推荐