RealtimeSTT 监听麦克风并将语音转录为文本

适用于实时应用程序的易于使用、低延迟的语音转文本库

RealtimeSTT 监听麦克风并将语音转录为文本。

它非常适合:

  • 语音助手
  • 需要快速、精确的语音到文本转换的应用程序

特征

  • 语音活动检测:自动检测您何时开始和停止说话。
  • 实时转录:将语音实时转换为文本。
  • 唤醒词激活:可以在检测到指定的唤醒词时激活。

提示:查看 RealtimeTTS(该库的输出对应项)以了解文本转语音功能。它们共同形成了围绕大型语言模型的强大实时音频包装器。

该库使用:

  • 语音活动检测
    • WebRTCVAD 用于初始语音活动检测。
    • SileroVAD 可实现更准确的验证。
  • 语音转文本
    • Faster_Whisper 用于即时(GPU 加速)转录。
  • 唤醒词检测
    • 用于唤醒词检测的豪猪。

这些组件代表了尖端应用的“行业标准”,为构建高端解决方案提供了最现代、最有效的基础。

安装

pip install RealtimeSTT

这将安装所有必要的依赖项,包括仅支持 CPU 的 PyTorch 版本。

尽管可以仅通过 CPU 安装来运行 RealtimeSTT(在本例中使用“tiny”或“base”等小型模型),但您将获得更好的体验:

GPU 支持 CUDA(推荐)

GPU 优化安装需要额外的步骤。建议需要更好性能并拥有兼容 NVIDIA GPU 的用户执行这些步骤。

注意:要检查您的 NVIDIA GPU 是否支持 CUDA,请访问官方 CUDA GPU 列表。

要通过 CUDA 使用具有 GPU 支持的 RealtimeSTT,请按照以下步骤操作:

  1. 安装 NVIDIA CUDA 工具包 11.8:

    • 访问 NVIDIA CUDA 工具包存档。
    • 选择版本 11。
    • 下载并安装软件。
  2. 安装适用于 CUDA 11.x 的 NVIDIA cuDNN 8.7.0:

    • 访问 NVIDIA cuDNN 档案。
    • 单击“下载适用于 CUDA 11.x 的 cuDNN v8.7.0(2022 年 11 月 28 日)”。
    • 下载并安装软件。
  3. 安装 ffmpeg:

    您可以从 ffmpeg 网站下载适用于您的操作系统的安装程序。

    或者使用包管理器:

    在 Ubuntu 或 Debian 上:

sudo apt update && sudo apt install ffmpeg

在 Arch Linux 上:

sudo pacman -S ffmpeg

在 MacOS 上使用 Homebrew (https://brew.sh/):

brew install ffmpegbr

在 Windows 上使用 Chocolatey (https://chocolatey.org/):

choco install ffmpegbr

在 Windows 上使用 Scoop (https://scoop.sh/):

scoop install ffmpegbr

4. 安装支持 CUDA 的 PyTorch:

pip uninstall torchpip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

项目链接

https://github.com/KoljaB/RealtimeSTT

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun267406.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年11月23日
下一篇 2023年11月23日

相关推荐