2024年4月17日星期三

字幕生成新招如何将 OpenAI Whisper 应用于视频字幕制作

上一篇文章 <<走进 OpenAI Whisper 开源语音识别技术>> 介绍了如何使用 whisper 做音频识别，同时可以生成 音轨文件，本章将介绍如何使用生成的 音轨文件 做视频字幕。

1. 准备

测试视频，注意此视频并没有字幕

您的浏览器不支持 video 标签。
srt 和 vtt 文件，关于这两个文件的如何生成，参看上一篇文章 <<走进 OpenAI Whisper 开源语音识别技术>>

2. 使用 FFmpeg 与 SRT 文件做视频烧录

先看一下 srt 文件内容，可以发现是标准的音轨文件，段、时间与内容

1
00:00:00,000 --> 00:00:03,840
you know, meeting with startups and there's not a startup right now out there that is not applying

2
00:00:03,840 --> 00:00:09,200
these AI generative models, these large language models to every interesting problem of the sun.

使用如下 FFmpeg 命令将原视频与 srt 文件烧录到一起

$ ffmpeg -i 9s.mp4 -vf "subtitles=9s.srt" -c:v libx264 -preset medium -c:a copy output.mp4

最后得到带字幕的视频，如下：

注意，上面的是烧录操作，意味着字幕添加到视频中后，字幕就改不了了，除非重新操作

3. 使用播放器VLC加载VTT文件

视频文件与字幕文件分离，可以随时更改字幕文件。这里不局限于使用 VLC 播放器，大部分播放器都支持加载字幕文件。

如果字幕文件与视频文件在同一目录，且名称一样，后缀不一样，如 9s.mp4 与 9s.vtt，播放器会自动加载字幕，srt 文件也适用。

手动加载字幕的前提是视频与字幕文件名称不一样，或者不在同一位置，此时需要手动加载。

20240426153303

4. 结论

尽管有很多成熟的产品可以实现视频字幕，大部分视频编辑软件可以实现更为强大的能力，这里纯属个人好奇使用，不做他论。

走进 OpenAI Whisper 开源语音识别技术

OpenAI 在 GitHub 上发布的 Whisper 是一个自动语音识别（ASR）系统。Whisper 是一个端到端的深度学习模型，它对音频片段进行处理，并预测对应的文本输出。

Whisper 个人觉得是目前免费做语音识别最好的系统，使用它的理由：

免费，开放源代码，意味着可以自由使用，包括商业化。
在数据训练的大模型基础上，识别任务上变现出色，背景噪音的情况下，也有稳定的表现。
语言识别模型可自由选择下载，意味着可以离线使用，只要你的机器硬件足够高，识别速度是非常快的。
多语言能力以及翻译能力，支持多种语言的音频，同时也支持翻译成英文，目前仅支持英文
可以作为命令行工具使用，也提供相关的 python 接口可供编程的能力

下面介绍安装和基本使用方法

安装

$ pip install git+https://github.com/openai/whisper.git
$ sudo apt update && sudo apt install ffmpeg

这里安装了 whisper 的 python 库，同时也需要安装 ffmpeg，因为 whisper 在处理音频文件时，会用到 ffmpeg 来进行音频解码和转码。

使用

Whisper 安装好后，提供了两种使用方式，即终端使用和编程使用。

这里准备了一个音频素材，从 youtube 下载了一段 bbc 的视频，使用 ffmpeg 做了音频提取得到了一个 9秒的音频片段。

关于如何使用 ffmpeg 提取音频，参考文章音视频处理工具 FFmpeg 的 TOP 10 常用场景

视频链接？？？？
音频链接？？？？

编程使用

这里使用 medium 模型，模型大小不到2G，初次使用会下载此模型，下载的路径是 ~/.cache/whisper

import whisper

model = whisper.load_model("medium")
result = model.transcribe("dataset/9s.wav")
print(result["text"])

 You know, meeting with startups and there's not a startup right now out there that is not applying these AI Generative models these large language models to every interesting problem of the sun

这里只是简单输出语音识别后的文字，更多的API，如生成不同格式的文本，见官方文档

终端使用

语音转文本

# 使用 medium 模型识别音频，生成 json、srt、tsv、txt、vtt 文件
whisper --model medium dataset/9s.wav

上面的命令会将识别的音频输出到控制台，同时生成带时间刻度的5个文本文件，当然也可根据自己的需求指定要生成的文件格式。

9s.json json格式的文本
9s.srt 文本文件格式，用于存储视频文件的字幕信息
9s.tsv 用于存储表格数据，类似于 CSV
9s.txt 简单文本
9s.vtt 文本文件格式，用于存储视频文件的字幕信息

语音转文本（翻译）

# 带翻译功能，但目前只能讲目标语言翻译到"英文"
whisper --model medium dataset/9s.wav --task translate

结论

OpenAI Whisper 可以说应该是目前最好的 ASR，基于已训练的模型可以自动识别语音，同时支持翻译能力。如果产品级使用，还需要解决模型加载速度以及RT时长的问题。

Reference

OpenAI Whisper

如何使用 Python rich 库让你的终端输出更加丰富多彩

Python 的 rich 库是一个用于在终端中创建富文本和美观格式的库。它可以用来打印彩色文本、表格、进度条等，使得命令行界面更加生动和用户友好。

以下是如何安装和使用 rich 库的一些基础示例。

1. 使用 pip 安装

$ pip install rich

确保你的 Python 版本至少是 3.6.1，这是 rich 库所要求的最低版本

2. 基本使用

下面列出基本常规的使用案例，rich 功能不局限于此，更多如渲染 markdown、tree 或输出代码语法高亮等功能，可参考官方文档

2.1. 打印彩色文本

from rich import print

print("[bold red]Hello[/bold red], [green]World![/green]")

这个功能类似于 shell 中定义颜色文本输出，可参看 Shell技巧#终端使用色彩字体

2.2. 创建表格

酷炫的功能，终端可以使用表格展示数据，实用性很强

from rich.table import Table
from rich.console import Console

console = Console()

table = Table(show_header=True, header_style="bold blue")
table.add_column("Date", style="dim", width=12)
table.add_column("Title")
table.add_column("Production Budget", justify="right")
table.add_column("Box Office", justify="right")

table.add_row("Dec 20, 2019", "Star Wars: The Rise of Skywalker", "$275,000,000", "$375,126,118")
table.add_row("May 25, 2018", "[red]Solo[/red]: A Star Wars Story", "$275,000,000", "$393,151,347")
table.add_row("Dec 15, 2017", "Star Wars Ep. VIII: The Last Jedi", "$262,000,000", "$1,332,539,889")

console.print(table)

2.3. 进度条示例

from rich.progress import Progress
import time

with Progress() as progress:
    task1 = progress.add_task("[red]Downloading...", total=1000)
    task2 = progress.add_task("[green]Processing...", total=1000)
    task3 = progress.add_task("[cyan]Cooking...", total=1000)

    while not progress.finished:
        progress.update(task1, advance=5)
        progress.update(task2, advance=3)
        progress.update(task3, advance=9)
        time.sleep(0.02)  # 代表实际工作的代码

2.4. 使用日志记录

from rich.logging import RichHandler
import logging

# 配置日志记录
logging.basicConfig(
    level="NOTSET",
    format="%(message)s",
    datefmt="[%X]",
    handlers=[RichHandler()]
)

logger = logging.getLogger("rich")

logger.info("这是一条信息日志")
logger.warning("警告！存在潜在问题")
logger.error("这是一条错误日志")

3. Rich cli

Rich 从 python 库引申了终端的 rich-cli 工具，安装（brew install rich）好可以直接在 shell 终端使用，几个比较使用的功能

$ rich README.md
$ rich data.json
$ rich notebook.ipynb
$ rich loop.py

Reference

订阅：评论 (Atom)

Calvin Wang's Blog

2024年4月17日星期三

字幕生成新招如何将 OpenAI Whisper 应用于视频字幕制作

1. 准备

2. 使用 FFmpeg 与 SRT 文件做视频烧录

3. 使用播放器VLC加载VTT文件

4. 结论

走进 OpenAI Whisper 开源语音识别技术

安装

使用

编程使用

终端使用

语音转文本

语音转文本（翻译）

结论

Reference

如何使用 Python rich 库让你的终端输出更加丰富多彩

1. 使用 pip 安装

2. 基本使用

2.1. 打印彩色文本

2.2. 创建表格

2.3. 进度条示例

2.4. 使用日志记录

3. Rich cli

Reference

Retrieving Secret Values Using REST Services in Infisical

搜索此博客

2024年4月17日星期三

字幕生成新招 如何将 OpenAI Whisper 应用于视频字幕制作

1. 准备

2. 使用 FFmpeg 与 SRT 文件做视频烧录

3. 使用播放器VLC加载VTT文件

4. 结论

走进 OpenAI Whisper 开源语音识别技术

安装

使用

编程使用

终端使用

语音转文本

语音转文本（翻译）

结论

Reference

如何使用 Python rich 库让你的终端输出更加丰富多彩

1. 使用 pip 安装

2. 基本使用

2.1. 打印彩色文本

2.2. 创建表格

2.3. 进度条示例

2.4. 使用日志记录

3. Rich cli

Reference

Retrieving Secret Values Using REST Services in Infisical

字幕生成新招如何将 OpenAI Whisper 应用于视频字幕制作