ClearVox-STT质量对比评估
ClearVox (WhisperX) vs Azure STT 质量对比评估
Section titled “ClearVox (WhisperX) vs Azure STT 质量对比评估”文档性质:技术评估研究
用途:评估 ClearVox 微服务是否可替代 Azure STT 用于播客转录管线
最后更新:2026-04-06
Yomiya 播客转录管线当前使用 Azure Speech-to-Text (Batch API v3.1),存在两个问题:
- 成本高 — Azure STT 按分钟计费,播客内容量增长后成本不可控
- BGM 干扰 — 播客音频通常含背景音乐,直接 ASR 准确率受损
自建微服务 ClearVox (v0.2.0) 提供:
- 人声分离(audio-separator + BS RoFormer 模型)— 去除 BGM
- WhisperX large-v3 转录 — 带 word-level timestamps
- (未来)Speaker diarization — 说话人分离
代码仓库:https://github.com/IntelliFuture/ClearVox
2. 评估方法
Section titled “2. 评估方法”- 样本: 5 篇 NHK Easy News,使用 TTS 合成音频(无 BGM)
- Ground Truth: NHK Easy News 原文文本
- 对比维度:
- 真错误(影响语意的误识别)
- 写法差异(ひらがな/カタカナ/漢字的表记差异,语意不变)
- CER(字符错误率,归一化后)
- 评估工具:
yomiya-service/scripts/stt_compare.py - 判断方式: 人工逐句语义对比(非纯 CER 数值)
3. 逐样本结果
Section titled “3. 逐样本结果”Sample 1: 桜の木が倒れた
Section titled “Sample 1: 桜の木が倒れた”| 差异点 | 原文 | Azure | ClearVox |
|---|---|---|---|
| 地名 | 砧公園 | 絹田公園 | 木ぬた公園 |
| 数字+单位 | 太さ2m50cm | 太さにM50cm | 太さ2m50cm |
| 平假名保持 | きれいに | 綺麗に | きれいに |
| 片假名保持 | ヒマラヤスギ | ヒマラヤ杉 | ヒマラヤスギ |
Azure 真错误 2,ClearVox 真错误 1。ClearVox 优位。
Sample 2: ホタテ漁
Section titled “Sample 2: ホタテ漁”| 差异点 | 原文 | Azure | ClearVox |
|---|---|---|---|
| 数字 | 880円 | 八八0円 | 880円 |
| 同音异字 | 貝 | 貝 | 会 |
各 1 真错误。平手。
Sample 3: アルテミス計画
Section titled “Sample 3: アルテミス計画”| 差异点 | 原文 | Azure | ClearVox |
|---|---|---|---|
| TTS 发音问题 | 月(つき) | ガツ | 月 |
| TTS 发音问题 | 人(ひと) | 人 | 任 |
两边的差异均源于 TTS 发音错误,ASR 自身真错误为 0。平手(TTS 问题)。
Sample 4: 熊ハンター
Section titled “Sample 4: 熊ハンター”| 差异点 | 原文 | Azure | ClearVox |
|---|---|---|---|
| 表记 | 熊 (x4) | クマ (x4) | 熊 (x4) |
真错误 0。ClearVox 保持了原文的汉字表记。ClearVox 优位。
Sample 5: くらげ水族館
Section titled “Sample 5: くらげ水族館”| 差异点 | 原文 | Azure | ClearVox |
|---|---|---|---|
| 地名 | 加茂水族館 | 加茂水族館 | 鴨水族館 |
| 表记 | くらげ (x7) | クラゲ (x7) | クラゲ (x7) |
ClearVox 真错误 1(地名误认)。Azure 略优。
4. 综合统计
Section titled “4. 综合统计”| 样本 | Azure 真错误 | ClearVox 真错误 | Azure CER | ClearVox CER | 判定 |
|---|---|---|---|---|---|
| 1 (桜の木) | 2 | 1 | 8.55% | 5.95% | ClearVox 优位 |
| 2 (ホタテ) | 1 | 1 | 12.30% | 11.76% | 平手 |
| 3 (アルテミス) | 0 (TTS) | 0 (TTS) | 6.37% | 5.39% | 平手 |
| 4 (熊ハンター) | 0 | 0 | 10.29% | 6.86% | ClearVox 优位 |
| 5 (くらげ水族館) | 0 | 1 | 13.04% | 14.35% | Azure 略优 |
| 合计 | 3 | 3 | avg 10.11% | avg 8.86% | ClearVox 略优 |
5. 各 ASR 特性总结
Section titled “5. 各 ASR 特性总结”ClearVox (WhisperX) 的优势
Section titled “ClearVox (WhisperX) 的优势”- 数字+单位的识别准确(2m50cm, 880円)
- 平假名表记保持好(きれいに, ヒマラヤスギ, 熊)
- 输出更接近 NHK Easy News 的学习者向け表记风格
ClearVox 的弱点
Section titled “ClearVox 的弱点”- 同音异字的地名误认(加茂→鴨, 砧→木ぬた)
- 同音异字的一般词误认(貝→会)
Azure STT 的优势
Section titled “Azure STT 的优势”- 地名识别稍稳定(加茂正确识别)
- 语言模型的上下文纠正在部分场景有效
Azure STT 的弱点
Section titled “Azure STT 的弱点”- 数字识别不稳定(880→八八0, 2m→にM)
- 平假名→汉字/片假名的表记转换较多(綺麗に, クマ, クラゲ)
6. 结论与推荐
Section titled “6. 结论与推荐”ClearVox 的转录质量与 Azure STT 同等或更优。 真错误数持平,但 CER 更低,且对学习者向け表记的保持更好。
重要说明: 本次测试仅使用无 BGM 的 TTS 音频。ClearVox 的人声分离功能(BS RoFormer)未被触发。实际播客(有 BGM)中,人声分离预计会进一步拉开质量优势。
推荐: 从成本和质量两方面来看,可以推进 ClearVox 替换。下一步:
- 用带 BGM 的真实播客音频做追加评估
- 在 yomiya-service 中实现 ClearVox client(设计文档已完成)
- 离线对比 20-30 集实际数据验证后,切换生产环境
7. 相关资源
Section titled “7. 相关资源”- 设计文档: ClearVox 接入播客转录管线 + 干净音频播放
- 对比脚本:
yomiya-service/scripts/stt_compare.py - 详细报告:
yomiya-service/scripts/stt_compare_report.md - ClearVox 仓库: https://github.com/IntelliFuture/ClearVox
- 相关 PR: https://github.com/IntelliFuture/yomiya-service/pull/474