Whisper 是一种自动语音识别（ASR）系统

2023年6月29日下午12:02 • 最新资讯

Whisper 是一种自动语音识别（ASR）系统，根据从网络收集的 680，000 小时的多语言和多任务监督数据进行训练。我们表明，使用如此庞大而多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外，它可以转录多种语言，以及从这些语言翻译成英语。我们正在开源模型和推理代码，作为构建有用应用程序和进一步研究健壮语音处理的基础。

Whisper架构是一种简单的端到端方法，作为编码器-解码器变压器实现。输入音频被分成 30 秒的块，转换为 log-Mel 频谱图，然后传递到编码器中。训练解码器来预测相应的文本标题，并与指示单个模型执行语言识别、短语级时间戳、多语言语音听录和英语语音翻译等任务的特殊标记混合在一起。

其他现有方法经常使用更小、更紧密配对的音频-文本训练数据集，¹ ^2,³或使用广泛但无监督的音频预训练。^4,^5,⁶由于Whisper是在庞大而多样化的数据集上进行训练的，并且没有针对任何特定数据集进行微调，因此它无法击败专门研究LibriSpeech性能的模型，LibriSpeech性能是语音识别领域著名的竞争基准。然而，当我们在许多不同的数据集中测量Whisper的零镜头性能时，我们发现它比这些模型更强大，误差少50%。

Whisper的音频数据集中约有三分之一是非英语的，它的任务是用原始语言转录或翻译成英语。我们发现这种方法在学习语音到文本翻译方面特别有效，并且在CoVoST2到英语翻译零镜头上优于监督SOTA。

我们希望Whisper的高精度和易用性将允许开发人员将语音界面添加到更广泛的应用程序中。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun237428.html

Whisper 语言语音

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

不和谐 AI 艺术生成器：7 个最佳服务器

上一篇 2023年6月28日下午11:19

如何将音乐下载到苹果手表

下一篇 2023年6月29日

工具软件

Stability AI 引入的 StableCode Instruct 3B 编码 AI 模型

Stability AI 引入的 StableCode Instruct 3B 编码 AI 模型 Stability AI 推出了 StableCode Instruct 3B，这…

2024年3月28日
VoiceCraft：超过XTTS的语音模型

VoiceCraft：超过XTTS的语音模型 VOICECRAFT模型介绍： VOICECRAFT是一个先进的神经编解码语言模型，专门用于语音编辑和零样本文本到语音（TTS）任务。…

工具软件 2024年3月26日
工具软件

Open Interpreter 开源O1语音智能助手

Open Interpreter 开源O1语音智能助手一个完全开源的可以控制家里电脑的AI语音设备O1，介绍视频已翻译。它可以看到你的屏幕内容学习使用你常用的应用，并且你无论在哪…

2024年3月26日
如何将键盘设置更改为默认值 Windows 11？

如果您遇到键盘问题，则需要将键盘设置重置为默认值。在本指南中，我们将讨论将键盘设置更改回正常状态的步骤。如何将键盘设置更改回正常？ 1. 再次选择首选语言按 + 打开“设置”应…

2024年3月18日 • Win 11
工具软件

如何创建能够拨打和接听电话的会说话的 AI 助手

如何创建能够拨打和接听电话的会说话的 AI 助手在当今快节奏的商业世界中，自动化潜在客户培育流程可以显着提高效率和生产力。通过利用人工智能驱动的语音助手和 Zapier 等无代码…

2024年3月17日
微软Microsoft

Windows 11 的语音识别将在六个月内被砍掉，但它可以在 Windows 10 上运行

Microsoft此前宣布弃用Windows Speech Recognition（WSR）和其他几个应用程序。令人惊讶的是，新的语音访问应用程序现在将于 2024 年 9 月取代…

2024年3月15日
在 iPhone 上更改语言的 3 种方法

众所周知，iPhone 是所有电子产品中最人性化的，其中一个原因是它们可以根据您的喜好轻松进行个性化设置。在您可以个性化的内容中，您可以将语言更改为其他语言，这与您在设置 iPho…

2024年1月20日 • 苹果Apple
“大型语言模型”和“LLM”这些术语将变得不那么常见

“大型语言模型”和“LLM”这些术语将变得不那么常见在当今人工智能领域，“大型语言模型”（及其缩写LLM）经常被用作“任何先进人工智能模型”的简称。这是可以理解的，因为许多最初崭…

工具软件 2023年12月30日
TextDiffuser-2：为文本渲染释放语言模型的力量

TextDiffuser-2：为文本渲染释放语言模型的力量可以稳定在扩散模型中生成指定位置和风格的英文文本，它是借助的微调后的大语言模型来规划文本布局，以及编码文本的位置。

工具软件 2023年12月26日
工具软件

Microsoft正在扼杀 Windows 11 上的 Windows Vista 时代的语音识别

Microsoft 将在即将发布的 Windows 11 中结束对 Windows 语音识别功能的支持。借助语音识别，您可以教操作系统理解您的声音并打开应用程序或口述命令，但现在是…

2023年12月25日
工具软件

ChatGPT 语音功能现已全面开放

ChatGPT 的语音功能现已面向所有免费用户开放。意味着无需支付任何费用，就能与 ChatGPT 进行自然的对话，体验犹如与真人交流一般的奇妙互动。在 Google Play …

2023年12月21日
工具软件

Runway ：上线文字生成语音功能

Runway ：上线文字生成语音功能尝试了一下英文的效果真的很好，感情很丰富自然。中文还是老问题，有外国人口音，这块可能不能指望外国公司了。这个功能可以选的语音模型非常多，可以都…

2023年12月19日
工具软件

大型语言模型的最佳大小是多少

当涉足语言模型的世界时，人们很容易认为模型越大，它的性能就越好。这个概念植根于这样一种信念，即更多的数据和更多的参数意味着模型可以做更多的事情。但现实并非如此简单。语言模型的理想大…

2023年12月15日
工具软件

如何使用 AudioBox Meta 的新文本转声音 AI 工具

Meta 本月推出了一款名为 AudioBox 的新 AI 声音发生器，它将改变我们与声音互动的方式。这个创新工具允许用户使用简单的文本提示轻松将文本转换为语音、创作音乐和创建声音…

2023年12月14日
工具软件

ChatGPT vs Bard vs Grok 使用相同的提示进行比较

ChatGPT vs Bard vs Grok 使用相同的提示进行比较如果您有兴趣了解更多关于使用相同提示时 ChatGPT vs Bard vs Grok 三种主要 AI 模型…

2023年12月12日
苹果Apple

如何在 iPhone 上使用 Siri

在移动设备领域，苹果的iPhone是先驱，将尖端技术与用户友好的设计无缝集成。这种集成的核心是 Siri，这是 Apple 的创新语音助手。Siri 彻底改变了用户与 iPhone…

2023年12月12日
TurnVoice 是一个命令行工具，可以转换和翻译 YouTube 视频中的声音

TurnVoice 是一个命令行工具，可以转换和翻译 YouTube 视频中的声音。它提供了语音转换和语音翻译的功能，可以替换特定的发言人声音，支持本地文件处理，并保留原始背景音频…

工具软件 2023年12月12日
Infedit：自然语言图像编辑

Infedit：自然语言图像编辑这个通过提示词局部编辑图片的项目也不错，比如你可以让图片的人物衣服换色和改变背景不改变原始人物。相较于其他之前类似的项目，这个项目的理解更加准确对…

工具软件 2023年12月12日
工具软件

Meta发布Seamless Communication无障碍沟通模型

Meta发布Seamless Communication无障碍沟通模型 Meta发布了一个由多个模型组成的无障碍沟通模型，比较重要的就是SeamlessStreaming这个无缝流…

2023年12月12日
工具软件

如何使用 AI 克隆您的声音以及您为什么要这样做

你有一本想变成有声读物的书吗？或者其他需要您提供画外音的项目，例如媒体内容、视频、营销材料等？加快编辑和创作工作流程的一种可能方法是使用人工智能（AI）克隆您的声音。 Desc…

2023年12月10日
工具软件

ChatGPT 以及神经网络如何学会说话 30 年的旅程

由于神经网络和语言处理方面的惊人进步，计算机可以像另一个人一样理解和响应人类语言。从最初的怀疑时刻到目前的成就状态的旅程是一个不懈创新和发现的故事。问题的艺术 YouTube 频道…

2023年12月8日
如何在 Telegram 中免费进行语音转文本

语音消息是简单文本消息的一个很好的替代品。但是，每次收到私人语音消息时，摸索耳机可能会很累。如果你是Telegram用户，幸运的是，有一个简单的出路。Telegram 现在可以自动…

2023年12月6日 • 技术教程
工具软件

大型语言模型简介：它们是什么以及它们如何工作？

大型语言模型（LLM）已成为不断发展的技术世界中的一项革命性发展。大型语言模型具有多种应用，从自动完成句子等简单任务到翻译语言、生成创意内容，甚至参与类似人类的对话等复杂任务。…

2023年12月5日
工具软件

什么是 Translatotron 3;谷歌人工智能，可以把你变成一个实时的多语种

Google AI 的研究人员开发了一种名为 Translatotron 3 的新 AI 模型，可以将口语从一种语言翻译成另一种语言，而无需任何并行语音数据。这可以把你变成一个实时…

2023年12月2日
工具软件

10 个 ChatGPT 提示，轻松学习任何语言

语言学习的格局发生了显着的转变，这在很大程度上要归功于先进技术的进步。这种转变的核心是 ChatGPT，这个工具证明了我们处理语言习得的方式发生了革命性的变化。对于那些渴望提升语…

2023年12月1日

Whisper 是一种自动语音识别 （ASR） 系统

相关推荐

Whisper 是一种自动语音识别（ASR）系统