字幕生成工具WhisperX

这个程序的特点是可以按照单词对齐时间戳,所以基本上生成字幕都是完整的句子。
生成结果除了srt还有json文件,里面有每一行里面单词的时间戳,可以根据需要二次整理字幕。
另外它还能识别发言人,准确率还可以。
貌似不支持Mac,而且需要NVIDIA的显卡,好在Google Colab可以运行(需要启用GPU)。

  • 使用 whisper large-v2 进行 70 倍实时转录的批量推理
  • faster-whisper 后端,对于 beam_size=5 的 large-v2 需要 <8GB gpu 内存
  • 使用wav2vec2对齐的准确词级时间戳
  • 使用来自 pyannote-audio 的说话人二值化的多说话人 ASR(说话人 ID 标签)
  • VAD 预处理,在不降低 WER 的情况下减少幻觉和批处理

有开发者写了一个可以根据YouTube Url识别YouTube字幕的Jupyter Notebook,仅供参考:

github.com/JimLiu/whisper-subtitles/blob/main/whisperx_youtube_subtitle.ipynb

项目链接

https://github.com/m-bain/whisperX

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun267432.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年11月23日
下一篇 2023年11月23日

相关推荐

  • User Evaluation:AI 帮助进行用户研究

    User Evaluation:AI 帮助进行用户研究 User Evaluation 是一个利用人工智能(AI)来提升用户研究和数据分析的工具。 功能特点 AI驱动的转录:支持5…

    2024年5月20日
  • Wegic:即时设计团队推出的 AI 网页生成工具

    Wegic:即时设计团队推出的 AI 网页生成工具 尝试了一下,Wegic 这个 AI 网页生成工具也太好了。 通过对话来生成和修改页面门槛确实低了很多。整体网站设计和 IP 都太…

    2024年5月20日
  • viva:首个可供使用的 Dit 架构视频生成工具

    viva:首个可供使用的 Dit 架构视频生成工具 海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型,而且现阶段免费。支持文本生成视频、图片生成视频…

    2024年5月20日
  • AI音乐生成工具Udio发布

    AI音乐生成工具Udio发布 音乐生成应用Udio正式发布比Suno有更多的自定义能力。同时整个软件的设计也更偏向内容消费,不只是单纯的当工具在做。 前谷歌DeepMind的顶尖A…

    2024年5月10日
  • Midreal:AI小说生成

    Midreal:AI小说生成 最近发现之前推荐过的 Midreal AI 互动小说游戏更新了网页版本,不需要在 Discord 里面使用了。 这次升级非常强大,Midreal已经不…

    工具软件 2024年5月10日
  • Miraa: AI驱动的语言跟读学习

    Miraa: AI驱动的语言跟读学习 Miraa是一个利用人工智能技术为媒体生成双语字幕和学习材料的应用。设计和体验都非常好。 它具有以下特点: 使用AI将媒体转录为字幕[ 根据指…

    工具软件 2024年5月10日
  • 如何启用和使用Kindle Vocabulary Builder

    Kindle 为书迷提供了多项便捷功能。有了它,您可以做笔记、为页面添加书签、创建收藏等等。您还可以在遇到困难的单词时查找它们及其用法。但是您知道吗,您的 Kindle 设备还会保…

    2024年4月2日 工具软件
  • 如何从 Kindle 的词汇生成器中提取单词到 PC

    Kindle 的 Vocabulary Builder 是一款出色的内置工具,可以自动保存您在阅读时查找的所有困难单词。但是,如果您想提取此单词列表,Kindle 只会令人失望。在…

    2024年4月2日 工具软件
  • Mora:借助多智能体系统实现通用视频生成

    Mora:借助多智能体系统实现通用视频生成 微软的一个视频生成项目 Mora,利用 Agents 来复原 Sora 的能力,基本还原了 Sora 所有的能力,目前支持生成 1024…

    工具软件 2024年3月26日
  • OMG: 在扩散模型中友好处理遮挡的个性化多概念生成

    OMG: 在扩散模型中友好处理遮挡的个性化多概念生成 腾讯这个新研究,支持多角色多概念在一张图片中生成。以前的 ID 或者概念保持项目只能将一个人还原在图片里面,有了这个项目以后就…

    工具软件 2024年3月26日
  • 如何使用 Haiper 免费制作 AI 视频

    如何使用 Haiper 免费制作 AI 视频 Haiper AI 是一款突破性的 AI 视频生成器,最近进入市场,为用户提供了完全免费创建令人惊叹的逼真视频的能力。Haiper A…

    2024年3月17日
  • 如何玩NYT Strands(有技巧和窍门)

    什么是 Strands,纽约时报的新单词搜索游戏? 我们大多数人可能很早就对拼字游戏感到“文字”的挫败感。好吧,想想拼字游戏并为其增添一丝神秘感。这就是你获得 Strands 的方…

    2024年3月14日 工具软件
  • Assistive:视频生成工具

    Assistive:视频生成工具 新的视频生成软件Assistive,支持从文本和图像生成视频,从演示视频的流体内容和表现来看,我嗅到了SVD的熟悉味道。同时推出的还有DATA-一…

    2024年1月2日
  • TwitterBio:使用 AI 帮你生成推特简介

    TwitterBio:使用 AI 帮你生成推特简介 使用 Mixtral 和 GPT-3.5生成你的Twitter 简介。项目已经开源,可以改一改生搞成国内的。

    2023年12月26日
  • Tripo3d:AI生成3D模型

    Tripo3d:AI生成3D模型 可以说是现在最强大的3D模型生成工具,一经发布就把几个老牌产品打趴了,支持从文字直接生成3D模型,也支持图片生成。

    2023年12月26日
  • Creatify:从一条链接生成视频广告

    Creatify:从一条链接生成视频广告 Creatify 这个产品,可以直接从你的产品页面获取内容,可以是官网可以是电商商品页,然后直接生成广告视频。优质广告的广告语口播和内容其…

    2023年12月26日
  • ChatGPT 内容创建者手册:生成博客文章、脚本等

    ChatGPT 是 OpenAI 打造的尖端语言模型,是内容创作领域的变革力量。这种先进的人工智能的实力在于它以令人印象深刻的速度无缝生成反映人类质量的文本。这种能力使其成为各种内…

    2023年12月21日
  • Midjoourney V6 beta 版本更新 ​后缀加 –v 6就可以

    Midjoourney V6 beta 版本更新​后缀加 –v 6就可以​​Midjourney V6 特色亮点: 1、超高图像分辨率:V6 呈现 2048×2048 …

    工具软件 2023年12月21日
  • 谷歌发布了一个用于视频生成的大语言模型VideoPoet

    谷歌发布了一个用于视频生成的大语言模型VideoPoet,这个有点意思。这个是一个专注于视频生成的多模态 LLM 。支持各种视频生成功能以及音频生成,让 LLM 来指导完整的视频生…

    工具软件 2023年12月21日
  • W.A.L.T:谷歌视频生成模型

    W.A.L.T:谷歌视频生成模型 刚注意到李飞飞团队的这个视频生成模型W.A.L.T,这效果也太好了,感觉比 Pika 1.0 还要好的多。清晰度和动作都非常好,特别是光剑打斗的那…

    工具软件 2023年12月19日
  • Coffee:AI 生成前端组件

    Coffee:AI 生成前端组件 这个AI生成前端代码的项目“Coffee”有意思,可以生成干净可维护的前端组件代码。交互也很有意思,你只需要在代码对应位置加一个标签在里面写上对组…

    2023年12月19日
  • Runway :上线文字生成语音功能

    Runway :上线文字生成语音功能 尝试了一下英文的效果真的很好,感情很丰富自然。中文还是老问题,有外国人口音,这块可能不能指望外国公司了。这个功能可以选的语音模型非常多,可以都…

    2023年12月19日
  • Midreal AI:AI生成小说

    Midreal AI:AI生成小说 Midreal AI小说生成工具,与其他LLM直接生成的所谓根本没有逻辑和情节的“小说”不同。这个产品可以生成真正的小说,逻辑性和创造力都在线,…

    2023年12月19日
  • Midjourney发布网页图片生成功能

    Midjourney发布网页图片生成功能 Midjourney上周发布了Alpha版本的网页图片生成功能写一下如何使用Alpha 版本和图片生成的一些变化,后面发现的小细节也会写在…

    2023年12月19日
  • 如何使用 Snapchat 生成 AI 图像

    Snapchat 最近推出了非常酷的功能,其中之一是使用 AI 生成带有简单提示的图像(甚至扩展图像)。再见,Midjourney?因此,如果您经常使用其他 AI 生成图像并将其发…

    技术教程 2023年12月18日