介绍语音盒：用于语音生成的最通用的 AI

2023年6月17日上午10:53 • 最新资讯

语音盒是一种生成式 AI 模型，可以帮助进行音频编辑、采样和样式设置。
这种技术将来可以用来帮助创作者轻松编辑音轨，让视障人士听到朋友用他们的声音写的信息，并使人们能够用自己的声音说任何外语。

今天，我们宣布在用于语音的生成AI方面取得突破。我们开发了Voicebox，这是一种最先进的AI模型，可以执行语音生成任务 – 如编辑，采样和风格化 – 它没有经过专门训练通过上下文学习来完成。

Voicebox 可以生成高质量的音频剪辑并编辑预先录制的音频（例如移除汽车喇叭或狗吠），同时保留音频的内容和风格。该模型也是多语言的，可以用六种语言生成语音。

未来，像 Voicebox 这样的多用途生成 AI 模型可以为元宇宙中的虚拟助手和非玩家角色提供自然的声音。它们可以让视障人士听到人工智能用他们的声音朗读的朋友的书面信息，为创作者提供新的工具来轻松创建和编辑视频的音轨等等。

语音盒的多功能性支持各种任务，包括：

上下文中的文本到语音转换合成：使用短至两秒长的音频示例，Voicebox 可以匹配音频样式并将其用于文本到语音转换生成。

语音编辑和降噪：Voicebox 可以重新创建被噪音打断的语音部分或替换说错的单词，而无需重新录制整个语音。例如，您可以识别被狗吠打断的语音片段，对其进行裁剪，并指示 Voicebox 重新生成该片段，就像用于音频编辑的橡皮擦一样。

跨语言风格迁移：当给定某人的语音样本和英语、法语、德语、西班牙语、波兰语或葡萄牙语的文本段落时，Voicebox 可以生成任何这些语言的文本阅读，即使示例语音和文本是不同的语言。此功能将来可用于帮助人们以自然、真实的方式进行交流，即使他们不会说相同的语言。

多样化的语音采样：从不同的数据中学习后，Voicebox可以生成更能代表人们在现实世界和上面列出的六种语言中说话方式的语音。

Voicebox是我们生成式AI研究向前迈出的重要一步，我们期待继续在音频领域进行探索，并了解其他研究人员如何在我们的工作基础上再接再厉。

https://u.jd.com/giEEi0x

https://u.jd.com/gsEjXuU

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun234217.html

文本编辑音频

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

Steam 桌面客户端收到来自 Valve 的重大更新

上一篇 2023年6月17日上午7:15

帮助创作者在 Facebook 上被发现并赚钱

下一篇 2023年6月17日

如何使用 PowerToys 在 Windows 上查看音频文件

PowerToys 中的 Peek 实用程序现在支持预览音频文件。从 PowerToys 版本 0.80.0 开始，您将能够查看多种音频文件格式的内容，而无需在其专用应用程序中打开…

2024年4月11日 • Win 11
工具软件

WhatsApp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

WhatsApp 通过定期更新不断改进。最近的报道表明，WhatsApp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，WhatsApp 还改进了平台上的视频播…

2024年4月6日
Excel不断更改数字：如何修复

Excel 具有此功能，它可以自动将单元格中的数字转换为特定日期。但是，如果 Excel 开始将数字更改为日期格式，这个有用的功能很快就会成为您头疼的原因！此问题可能会影响整个行或…

2024年3月31日 • 苹果Apple
苹果Apple

如何在iPhone照片应用程序上编辑视频

如何在iPhone照片应用程序上编辑视频在不断发展的数字媒体世界中，视频的质量可以产生重大影响。将 iPhone 放在口袋里，您可以使用一个非常强大的工具来捕获和编辑视频，这些视…

2024年3月29日
苹果Apple

如何在iPhone照片应用程序上编辑视频

如何在iPhone照片应用程序上编辑视频在不断发展的数字媒体世界中，视频的质量可以产生重大影响。将 iPhone 放在口袋里，您可以使用一个非常强大的工具来捕获和编辑视频，这些视…

2024年3月28日
工具软件

5 种 AI 工具可改善您的视频编辑并节省时间

5 种 AI 工具可改善您的视频编辑并节省时间如果您正在寻找减少编辑视频时间的方法，您可能会对五种 AI 工具感兴趣，它们不仅可以改善您的视频编辑工作流程，还可以节省您的时间。您…

2024年3月26日
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
工具软件

Denon DHT-S218杜比全景声条形音箱推出

Denon DHT-S218杜比全景声条形音箱推出 Denon推出DHT-S218杜比全景声条形音箱（Dolby Atmos Sound Bar），这是一种高级音频解决方案，旨在将…

2024年3月26日
VoiceCraft：超过XTTS的语音模型

VoiceCraft：超过XTTS的语音模型 VOICECRAFT模型介绍： VOICECRAFT是一个先进的神经编解码语言模型，专门用于语音编辑和零样本文本到语音（TTS）任务。…

工具软件 2024年3月26日
工具软件

如何在 Mac 上免费编辑 PDF 文件

如何在 Mac 上免费编辑 PDF 文件如果您需要编辑 PDF 文件，但不想放弃辛苦赚来的现金并购买第三方应用程序。如果您使用的是 Apple Mac 计算机，您会很高兴知道 m…

2024年3月15日
工具软件

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库提示是人工智能（AI）的命脉，可让您从大型语言模型中获得最佳结果。如果您正在寻找在尖端技术和 …

2024年3月15日
苹果Apple

在 iPhone 上从 PDF 获取文本的 3 种方法

Apple 的实况文本功能可以识别“照片”或“相机”应用程序中的文本、手写笔记和数字，并允许您将这些信息粘贴到任何其他应用程序上。但是，当您处理 PDF 并想从中提取文本时，您会怎…

2024年2月22日
如何在iPhone上编辑主屏幕页面

Apple 允许您通过重新排列主屏幕页面并随时随意删除它们来快速更改主屏幕。这样，您可以轻松地从主屏幕页面隐藏多个应用程序和小部件，而无需拖动它们并逐个删除它们。在这篇文章中，我们…

2024年2月14日 • 苹果Apple
如何使用截图工具从图像中编辑和提取文本 Windows 11

与许多其他应用程序一样，Microsoft正在更新和简化Windows的本机屏幕截图应用程序Snipping Tool，并提供一些新功能。“文本操作”是一项基于 OCR 的新功能，…

2024年2月2日 • Win 11
在 iPhone 上为文本添加下划线的 11 种方法

在计算机上进行文本编辑非常简单。您可以使用 Command（在 CTRL 上）+ U 键盘快捷键为部分文本添加下划线。不过，在你的手机上，情况有点不同。由于您在手机上处理很多应用程…

2024年1月19日 • 苹果Apple
工具软件

Google Gemini Pro 与 OpenAI ChatGPT-4 AI 模型比较

自去年年底推出并随后在 Google Bard 中推出以来，谷歌最新的 AI 模型 Gemini Pro 是 OpenAI 的 ChatGPT 的主要竞争对手，提供非常相似的多模态…

2024年1月2日
如何在后台或锁定iPhone的情况下继续收听YouTube

在 iPhone 上，在后台收听 YouTube 音频通常需要支付 YouTube Premium 订阅费用，但有一个简单的解决方法可让您在 iPhone 上执行其他操作或设备锁定…

2023年12月29日 • 苹果Apple
TextDiffuser-2：为文本渲染释放语言模型的力量

TextDiffuser-2：为文本渲染释放语言模型的力量可以稳定在扩散模型中生成指定位置和风格的英文文本，它是借助的微调后的大语言模型来规划文本布局，以及编码文本的位置。

工具软件 2023年12月26日
MediaEditor：轻量、跨平台的开源非线性编辑

特征支持完整的时间线编辑功能，包括移动、裁剪、剪切、缩略图预览、缩放和删除。支持更加灵活便捷的蓝图系统。蓝图以节点的形式表示，可以通过节点和流程处理复杂的功能。支持约 45+…

工具软件 2023年12月23日
工具软件

无法检测的 AI 评论：功能强大、易于使用的反 AI 检测器

多亏了人工智能工具，写作从未如此简单。无论您是想批量创建短篇文章还是长篇文章，您都可以在几秒钟内生成最令人惊叹的文本。但是，您的一些读者使用 AI 检测器，甚至可以接收到最轻微的…

2023年12月19日
工具软件

充分利用 Google Bard 的 12 个技巧

您可以使用这些技巧来充分利用 Google Bard。Bard 是 Google AI 的大型语言模型，是一款功能强大的工具，可用于多种用途。它可以生成文本、翻译语言、编写不同类型…

2023年12月19日
TurnVoice：将YouTube视频的声音重新翻译替换

项目简介一个命令行工具，用于转换 (YouTube) 视频中的语音，并具有附加翻译功能。它号称可以：– 语音替换：去除人声轨道并重新组合以保留原始背景音频&#8211…

工具软件 2023年12月18日
如何在iPhone上编辑消息

iPhone 上的原生“信息”应用可让您轻松编辑已发送的文本。这样，您可以纠正您的错误、标点符号，甚至是自动更正可能已应用于您的文本的错误短语/单词。在这篇文章中，我们将了解如何…

2023年12月18日 • 苹果Apple
工具软件

如何设置 Google Gemini Pro API 密钥和 AI 模型 – 初学者指南

正如本月早些时候宣布的那样，谷歌提供了新的Gemini Pro人工智能开发人员，企业和个人使用。如果您有兴趣创建 AI 驱动的应用程序、自动化和服务，您会很高兴知道 Gemini …

2023年12月16日
VoiceFixer 2：用于语音恢复的工具包

项目简介欢迎使用 VoiceFixer 2，下一代 VoiceFixer。VoiceFixer 是一款通用语音修复工具，使用 AI 消除背景噪音、修复降级语音、增强旧录音的音频质…

工具软件 2023年12月16日

介绍语音盒：用于语音生成的最通用的 AI

相关推荐