前言
平时刷 B 站,经常会遇到一个问题:
有些视频讲得很好,但就是没有字幕,想做笔记只能反复暂停、手动听写,效率特别低。
这篇文章就分享一个我自己在用的方法——把 B 站视频直接转成文字稿,而且还是带时间戳的那种。
完全免费,模型本地部署,也不用花token。
整体流程其实很简单:
下载音频 → 用 AI 自动识别 → 输出文字稿
不需要复杂操作,小白也能上手。
项目介绍
这个方案的核心,其实就是两样东西:
- •
Whisper:用来做语音识别(AI 转文字)
整个流程是这样的:
下载视频音频 → Whisper 语音识别 → 输出文字稿
这个方案有什么优点?
也有几个需要注意的点
项目部署
这一块其实就是环境准备,很简单,三步搞定。
1. 安装 Python
确保你的电脑有 Python 3.8 以上版本:
python --version
2. 安装依赖
打开命令行,执行:
pip install yt-dlp openai-whisper --user
这里加 --user 是为了避免权限问题。
3. 验证是否安装成功
pip show yt-dlppip show openai-whisper
能看到包信息就说明 OK 了。
项目实操
这里分两种方式:推荐用脚本(更省事),也可以手动操作。
方式一:一键脚本(推荐)
第一步:拿到 BV 号
比如这个链接:
https://www.bilibili.com/video/BV1oPFDzQEG7
BV 号就是:
BV1oPFDzQEG7
第二步:执行命令
python bilibili_transcribe.py BV1oPFDzQEG7 output.txt base
参数说明简单说一下:
第三步:查看结果
生成的文件里会包含:
方式二:手动操作(更灵活)
第一步:下载音频
yt-dlp -x --audio-format mp3 -o audio.mp3 "视频地址"
第二步:转文字
whisper audio.mp3 --model base --language zh --output_dir .
会生成两个文件:
第三步:整理内容
根据你的需求做二次整理,比如:
模型怎么选?
模型 | 显存占用 | 转录速度 | 中文准确率 | 适用场景 |
tiny
| ~1GB | 最快 | 一般 | 快速测试 |
base
| ~1GB | 快 | 不错 | 日常使用(推荐) |
small
| ~2GB | 中等 | 好 | 对准确率有要求 |
medium
| ~3GB | 慢 | 很好 | 专业用途 |
large
| ~5GB | 最慢 | 最佳 | 最高质量需求 |
这里给你一个简单结论,直接用就行:
一句话总结:
越大越准,但越慢、越吃性能。
常见坑(提前帮你踩了)
1. 权限报错
[WinError 5] 拒绝访问
解决:
pip install yt-dlp openai-whisper --user
2. 找不到 yt-dlp 命令
原因是没加 PATH,可以这样临时解决:
$env:Path += ";你的Python路径\Scripts"
3. 中文识别不准
建议:
4. 转录太慢
这个没办法,主要看:
可以用 tiny 或 base 提速。
项目心得
这个工具我自己用了之后,有几个明显感受:
第一,效率提升非常明显以前一个 20 分钟的视频,做笔记至少要 1 小时,现在基本自动搞定。
第二,特别适合做内容创作比如:
第三,AI + 工具链的价值真的很大其实单看每个工具都不复杂,但组合起来就很强。
最后说一句
如果你经常看 B 站学习、做内容,这套方案真的值得配一套。
一旦用上,你基本就回不去手动听写了。