跳转到内容

ClearVox-STT质量对比评估

ClearVox (WhisperX) vs Azure STT 质量对比评估

Section titled “ClearVox (WhisperX) vs Azure STT 质量对比评估”

文档性质:技术评估研究
用途:评估 ClearVox 微服务是否可替代 Azure STT 用于播客转录管线
最后更新:2026-04-06


Yomiya 播客转录管线当前使用 Azure Speech-to-Text (Batch API v3.1),存在两个问题:

  1. 成本高 — Azure STT 按分钟计费,播客内容量增长后成本不可控
  2. BGM 干扰 — 播客音频通常含背景音乐,直接 ASR 准确率受损

自建微服务 ClearVox (v0.2.0) 提供:

  • 人声分离(audio-separator + BS RoFormer 模型)— 去除 BGM
  • WhisperX large-v3 转录 — 带 word-level timestamps
  • (未来)Speaker diarization — 说话人分离

代码仓库:https://github.com/IntelliFuture/ClearVox


  • 样本: 5 篇 NHK Easy News,使用 TTS 合成音频(无 BGM)
  • Ground Truth: NHK Easy News 原文文本
  • 对比维度:
    • 真错误(影响语意的误识别)
    • 写法差异(ひらがな/カタカナ/漢字的表记差异,语意不变)
    • CER(字符错误率,归一化后)
  • 评估工具: yomiya-service/scripts/stt_compare.py
  • 判断方式: 人工逐句语义对比(非纯 CER 数值)

差异点原文AzureClearVox
地名砧公園絹田公園木ぬた公園
数字+单位太さ2m50cm太さにM50cm太さ2m50cm
平假名保持きれいに綺麗にきれいに
片假名保持ヒマラヤスギヒマラヤ杉ヒマラヤスギ

Azure 真错误 2,ClearVox 真错误 1。ClearVox 优位

差异点原文AzureClearVox
数字880円八八0円880円
同音异字

各 1 真错误。平手

差异点原文AzureClearVox
TTS 发音问题月(つき)ガツ
TTS 发音问题人(ひと)

两边的差异均源于 TTS 发音错误,ASR 自身真错误为 0。平手(TTS 问题)

差异点原文AzureClearVox
表记熊 (x4)クマ (x4)熊 (x4)

真错误 0。ClearVox 保持了原文的汉字表记。ClearVox 优位

差异点原文AzureClearVox
地名加茂水族館加茂水族館鴨水族館
表记くらげ (x7)クラゲ (x7)クラゲ (x7)

ClearVox 真错误 1(地名误认)。Azure 略优


样本Azure 真错误ClearVox 真错误Azure CERClearVox CER判定
1 (桜の木)218.55%5.95%ClearVox 优位
2 (ホタテ)1112.30%11.76%平手
3 (アルテミス)0 (TTS)0 (TTS)6.37%5.39%平手
4 (熊ハンター)0010.29%6.86%ClearVox 优位
5 (くらげ水族館)0113.04%14.35%Azure 略优
合计33avg 10.11%avg 8.86%ClearVox 略优

  • 数字+单位的识别准确(2m50cm, 880円)
  • 平假名表记保持好(きれいに, ヒマラヤスギ, 熊)
  • 输出更接近 NHK Easy News 的学习者向け表记风格
  • 同音异字的地名误认(加茂→鴨, 砧→木ぬた)
  • 同音异字的一般词误认(貝→会)
  • 地名识别稍稳定(加茂正确识别)
  • 语言模型的上下文纠正在部分场景有效
  • 数字识别不稳定(880→八八0, 2m→にM)
  • 平假名→汉字/片假名的表记转换较多(綺麗に, クマ, クラゲ)

ClearVox 的转录质量与 Azure STT 同等或更优。 真错误数持平,但 CER 更低,且对学习者向け表记的保持更好。

重要说明: 本次测试仅使用无 BGM 的 TTS 音频。ClearVox 的人声分离功能(BS RoFormer)未被触发。实际播客(有 BGM)中,人声分离预计会进一步拉开质量优势。

推荐: 从成本和质量两方面来看,可以推进 ClearVox 替换。下一步:

  1. 用带 BGM 的真实播客音频做追加评估
  2. 在 yomiya-service 中实现 ClearVox client(设计文档已完成)
  3. 离线对比 20-30 集实际数据验证后,切换生产环境