字幕生成工具WhisperX

2023年11月23日下午4:29 • 工具软件

这个程序的特点是可以按照单词对齐时间戳，所以基本上生成的字幕都是完整的句子。
生成结果除了srt还有json文件，里面有每一行里面单词的时间戳，可以根据需要二次整理字幕。
另外它还能识别发言人，准确率还可以。
貌似不支持Mac，而且需要NVIDIA的显卡，好在Google Colab可以运行（需要启用GPU）。

使用 whisper large-v2 进行 70 倍实时转录的批量推理
faster-whisper 后端，对于 beam_size=5 的 large-v2 需要 <8GB gpu 内存
使用wav2vec2对齐的准确词级时间戳
使用来自 pyannote-audio 的说话人二值化的多说话人 ASR（说话人 ID 标签）
VAD 预处理，在不降低 WER 的情况下减少幻觉和批处理

有开发者写了一个可以根据YouTube Url识别YouTube字幕的Jupyter Notebook，仅供参考：

github.com/JimLiu/whisper-subtitles/blob/main/whisperx_youtube_subtitle.ipynb

项目链接

https://github.com/m-bain/whisperX

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun267432.html

单词字幕生成

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

用最简单直接的方式把 LLM 部署到云端或本地OpenLLM

上一篇 2023年11月23日

CodeTF 是一个基于 Python Transformer 的一站式代码大型语言模型 (Code LLM) 和代码智能库

下一篇 2023年11月23日

工具软件

User Evaluation：AI 帮助进行用户研究

User Evaluation：AI 帮助进行用户研究 User Evaluation 是一个利用人工智能（AI）来提升用户研究和数据分析的工具。功能特点 AI驱动的转录：支持5…

2024年5月20日
工具软件

Wegic：即时设计团队推出的 AI 网页生成工具

Wegic：即时设计团队推出的 AI 网页生成工具尝试了一下，Wegic 这个 AI 网页生成工具也太好了。通过对话来生成和修改页面门槛确实低了很多。整体网站设计和 IP 都太…

2024年5月20日
工具软件

viva：首个可供使用的 Dit 架构视频生成工具

viva：首个可供使用的 Dit 架构视频生成工具海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频…

2024年5月20日
工具软件

AI音乐生成工具Udio发布

AI音乐生成工具Udio发布音乐生成应用Udio正式发布比Suno有更多的自定义能力。同时整个软件的设计也更偏向内容消费，不只是单纯的当工具在做。前谷歌DeepMind的顶尖A…

2024年5月10日
Midreal：AI小说生成

Midreal：AI小说生成最近发现之前推荐过的 Midreal AI 互动小说游戏更新了网页版本，不需要在 Discord 里面使用了。这次升级非常强大，Midreal已经不…

工具软件 2024年5月10日
Miraa： AI驱动的语言跟读学习

Miraa： AI驱动的语言跟读学习 Miraa是一个利用人工智能技术为媒体生成双语字幕和学习材料的应用。设计和体验都非常好。它具有以下特点: 使用AI将媒体转录为字幕[ 根据指…

工具软件 2024年5月10日
如何启用和使用Kindle Vocabulary Builder

Kindle 为书迷提供了多项便捷功能。有了它，您可以做笔记、为页面添加书签、创建收藏等等。您还可以在遇到困难的单词时查找它们及其用法。但是您知道吗，您的 Kindle 设备还会保…

2024年4月2日 • 工具软件
如何从 Kindle 的词汇生成器中提取单词到 PC

Kindle 的 Vocabulary Builder 是一款出色的内置工具，可以自动保存您在阅读时查找的所有困难单词。但是，如果您想提取此单词列表，Kindle 只会令人失望。在…

2024年4月2日 • 工具软件
Mora：借助多智能体系统实现通用视频生成

Mora：借助多智能体系统实现通用视频生成微软的一个视频生成项目 Mora，利用 Agents 来复原 Sora 的能力，基本还原了 Sora 所有的能力，目前支持生成 1024…

工具软件 2024年3月26日
OMG: 在扩散模型中友好处理遮挡的个性化多概念生成

OMG: 在扩散模型中友好处理遮挡的个性化多概念生成腾讯这个新研究，支持多角色多概念在一张图片中生成。以前的 ID 或者概念保持项目只能将一个人还原在图片里面，有了这个项目以后就…

工具软件 2024年3月26日
工具软件

如何使用 Haiper 免费制作 AI 视频

如何使用 Haiper 免费制作 AI 视频 Haiper AI 是一款突破性的 AI 视频生成器，最近进入市场，为用户提供了完全免费创建令人惊叹的逼真视频的能力。Haiper A…

2024年3月17日
如何玩NYT Strands（有技巧和窍门）

什么是 Strands，纽约时报的新单词搜索游戏？我们大多数人可能很早就对拼字游戏感到“文字”的挫败感。好吧，想想拼字游戏并为其增添一丝神秘感。这就是你获得 Strands 的方…

2024年3月14日 • 工具软件
工具软件

Assistive：视频生成工具

Assistive：视频生成工具新的视频生成软件Assistive，支持从文本和图像生成视频，从演示视频的流体内容和表现来看，我嗅到了SVD的熟悉味道。同时推出的还有DATA-一…

2024年1月2日
工具软件

TwitterBio：使用 AI 帮你生成推特简介

TwitterBio：使用 AI 帮你生成推特简介使用 Mixtral 和 GPT-3.5生成你的Twitter 简介。项目已经开源，可以改一改生搞成国内的。

2023年12月26日
工具软件

Tripo3d：AI生成3D模型

Tripo3d：AI生成3D模型可以说是现在最强大的3D模型生成工具，一经发布就把几个老牌产品打趴了，支持从文字直接生成3D模型，也支持图片生成。

2023年12月26日
工具软件

Creatify：从一条链接生成视频广告

Creatify：从一条链接生成视频广告 Creatify 这个产品，可以直接从你的产品页面获取内容，可以是官网可以是电商商品页，然后直接生成广告视频。优质广告的广告语口播和内容其…

2023年12月26日
工具软件

ChatGPT 内容创建者手册：生成博客文章、脚本等

ChatGPT 是 OpenAI 打造的尖端语言模型，是内容创作领域的变革力量。这种先进的人工智能的实力在于它以令人印象深刻的速度无缝生成反映人类质量的文本。这种能力使其成为各种内…

2023年12月21日
Midjoourney V6 beta 版本更新后缀加 –v 6就可以

Midjoourney V6 beta 版本更新后缀加 –v 6就可以Midjourney V6 特色亮点： 1、超高图像分辨率：V6 呈现 2048×2048 …

工具软件 2023年12月21日
谷歌发布了一个用于视频生成的大语言模型VideoPoet

谷歌发布了一个用于视频生成的大语言模型VideoPoet，这个有点意思。这个是一个专注于视频生成的多模态 LLM 。支持各种视频生成功能以及音频生成，让 LLM 来指导完整的视频生…

工具软件 2023年12月21日
W.A.L.T：谷歌视频生成模型

W.A.L.T：谷歌视频生成模型刚注意到李飞飞团队的这个视频生成模型W.A.L.T，这效果也太好了，感觉比 Pika 1.0 还要好的多。清晰度和动作都非常好，特别是光剑打斗的那…

工具软件 2023年12月19日
工具软件

Coffee：AI 生成前端组件

Coffee：AI 生成前端组件这个AI生成前端代码的项目“Coffee”有意思，可以生成干净可维护的前端组件代码。交互也很有意思，你只需要在代码对应位置加一个标签在里面写上对组…

2023年12月19日
工具软件

Runway ：上线文字生成语音功能

Runway ：上线文字生成语音功能尝试了一下英文的效果真的很好，感情很丰富自然。中文还是老问题，有外国人口音，这块可能不能指望外国公司了。这个功能可以选的语音模型非常多，可以都…

2023年12月19日
工具软件

Midreal AI：AI生成小说

Midreal AI：AI生成小说 Midreal AI小说生成工具，与其他LLM直接生成的所谓根本没有逻辑和情节的“小说”不同。这个产品可以生成真正的小说，逻辑性和创造力都在线，…

2023年12月19日
工具软件

Midjourney发布网页图片生成功能

Midjourney发布网页图片生成功能 Midjourney上周发布了Alpha版本的网页图片生成功能写一下如何使用Alpha 版本和图片生成的一些变化，后面发现的小细节也会写在…

2023年12月19日
如何使用 Snapchat 生成 AI 图像

Snapchat 最近推出了非常酷的功能，其中之一是使用 AI 生成带有简单提示的图像（甚至扩展图像）。再见，Midjourney？因此，如果您经常使用其他 AI 生成图像并将其发…

技术教程 2023年12月18日

字幕生成工具WhisperX

项目链接

相关推荐