跳转到内容

03-新资源入库流程

文档性质:当前新资源研究主流程
用途:把人工预筛选后的新资源,统一纳入“转文字 -> 归类 -> 失败回退 -> 研究沉淀”的最简流程
适用范围:播客补样本、YouTube 来源扩展、B 站样本探索、进入数据库方案讨论前的研究处理
边界说明

  • 当前系统现实仍以 ./02-当前系统现实.md 为准
  • 当前执行边界仍以 ./01-当前目标与范围.md 为准
  • 如果是在讨论 YouTube 自动扩源、候选确认和为什么推荐,先看 ./09-YouTube主动发现、候选确认与入库衔接.md
  • 这里描述的是“研究 / 补样本 / 入库判断前”的工作流,不等于 yomiya-service 当前生产处理链路全貌
  • 官方供给内容当前已有正式处理链路:风控、难度、scene、通知型发布
  • 用户导入内容当前也有正式处理链路,但会跳过风控和难度
  • 这份文档默认不再重复判断“这是不是好资源”,那一步已经由人工完成 最后更新:2026-04-16

在这份研究流程里,当前最重要的冻结只有一句话:

人工先筛,系统不重复判值;系统只负责转文字、做归类、处理失败回退。

当前要补一个现实口径:

  • 研究主入口仍然是人工预筛
  • 但 YouTube 现在允许多一个上游补充入口,也就是 09 中的“自动候选确认”
  • 只要候选已经被人工确认“值得继续”,它后面进入本流程的方式和人工预筛资源是一致的

这意味着这份研究流程当前不负责这些前置判断:

  • 它是不是高价值资源
  • 它是不是 Phase 1 候选
  • 它是不是值得研究
  • 它是不是内容型资源

这些都默认由人工预筛选先完成。


  1. 先确认主路径没有漂移
    先看 ./01-当前目标与范围.md./02-当前系统现实.md
  2. 通过两种方式之一拿到“已确认值得继续”的新资源
    • 人工预筛
    • 09 自动候选发现后的人为确认
  3. 登记最小元信息
  4. 先解决文字路径
  5. 文字成功后再做归类
  6. 把结果写回样本清单和研究文档
  7. 一批跑完后,再从结果里抽数据库讨论需要的字段、关系和约束

3. 研究流程当前只保留的 4 个状态

Section titled “3. 研究流程当前只保留的 4 个状态”

当前研究流程只保留下面 4 个处理状态:

  • queued 人工已挑选,等待处理
  • transcript_ready 已拿到可用文字
  • transcript_failed 当前无法拿到可用文字,需人工补充或暂挂
  • classified 已完成归类,可进入样本沉淀或正式入库讨论

这 4 个状态描述的是处理进度,不是资源价值等级

同时要注意:

  • 这 4 个状态是研究文档里的工作状态,不是 yomiya-service 当前数据库枚举
  • 服务端当前实际还存在 processing / completed / rejected / failed 等状态,不应和这里混写
stateDiagram-v2
  [*] --> queued
  queued --> transcript_ready: 拿到可用文字
  queued --> transcript_failed: 原生文字缺失且 ASR 失败
  transcript_failed --> queued: 人工补充后重试
  transcript_ready --> classified: 完成归类
  classified --> [*]

这张状态图只表达研究处理进度,不表达资源价值高低。


这一层只负责让资源进入处理队列,不做复杂 gate。

最小必填建议只保留:

  • platform
  • source_brand
  • sample_name
  • sample_level
  • type
  • url 或来源定位信息
  • notes

如果是播客,优先登记:

  • 节目名
  • 单集名或节目名
  • 平台链接

如果是 YouTube 或 B 站,优先登记:

  • 频道名 / UP 主名
  • 视频名或播放列表名
  • 视频 / 播放列表链接

研究侧最重要的判断只有一个:

这条资源现在有没有办法拿到可用文字。

统一只分三类来源:

  • native 平台原生 transcript、caption、subtitle、article、description
  • generated 没有现成文字,但可以用 ASR 生成
  • failed 当前既没有现成文字,也无法得到可用 ASR
  1. 平台原生 transcript / show notes / description
  2. RSS description 或附带文字
  3. ASR
  1. 原生 captions / subtitle
  2. 视频 description 或配套 article
  3. 抽音轨做 ASR
  • 不讨论资源值不值
  • 只讨论文字能不能拿到
  • 能拿到就继续
  • 拿不到就先挂起

只要文字可用,就直接进入归类。

当前归类输出建议只保留这些字段:

  • type
  • transcript_availability
  • transcript_source
  • transcript_quality_expectation
  • level
  • scene
  • content_structure
  • recommended_channel
  • recommended_collection_direction
  • series_candidate

如果还在研究阶段,可以顺手保留:

  • cross_media_expandability
  • item_derivation_value
  • item_derivation_form

但这些是补充输出,不再作为前置 gate。

  • 没有文字,不做稳定归类
  • 有文字,再结合标题 / 简介 / 元信息做归类

也就是说:

归类依赖文字成功,不依赖复杂的系统侧价值判断。


如果文字失败,不要硬做分类。

当前只保留两种处理:

  1. 待人工补充 例如补 transcript 来源、补标题说明、补外部文字稿
  2. 暂挂 当前先不继续处理,等后续再看

失败时至少要记录:

  • 为什么失败
  • 是无字幕、无 transcript、ASR 不可用,还是噪音太高

虽然这份研究流程不再负责“资源值不值得入”,但仍可以保留一个很轻的异常拦截:

  • 文字结果明显不是日语主体
  • ASR 结果噪音极高,无法支撑归类
  • 视频几乎没有可解析语音

这类情况不叫“资源不值得入”,而叫:

当前无法完成稳定转文字与归类。

这时进入 transcript_failed 或人工补充,不再展开复杂评分。


新资源处理完以后,默认按这个顺序回写:

  1. 统一写入 ./04-内容样本池.md
    • 播客、YouTube、执行状态、链接附录都在这一份里维护
  2. 再根据新模式调整 ./archive/research/播客与视频统一分析标准.md
  3. 如果已经形成稳定目标理想或结构差距,再回写 ./02-当前系统现实.md
  4. 如果牵涉当前阶段边界,再同步 ./01-当前目标与范围.md

进入数据库方案讨论之前,至少要回答清楚这 5 个问题:

  1. 音频 / 视频最稳定的文字路径分别是什么
  2. 文字失败最常见的原因是什么
  3. 哪些归类字段最容易稳定产出
  4. 哪些内容方向最容易形成可组织内容线
  5. 当前数据库应该优先承接哪一批最稳定的结构化结果

这 5 个问题没收敛前,不建议直接写数据库表结构。


如果下一轮要立刻推进,建议按下面顺序做:

  1. 先从已识别资源里人工挑一批
  2. 先补最小元信息,不急着补全四层字段
  3. 先跑文字路径
  4. 文字成功后再补 scene / level / content_structure / collection_direction
  5. 失败的先记失败原因,不硬做归类
  6. 一批跑完后再汇总模式

推荐先处理:

  • 已有原生 transcript / subtitle 的资源
  • description 较完整的资源
  • 语音密度高、较易 ASR 的资源

不建议第一轮优先处理:

  • 明显跨语混合节目
  • 明显工具型 / 题库型音频
  • 文字路径极弱、ASR 噪音很高的资源

flowchart TD
  A[开始] --> B[先确认主路径文档]
  B --> C[人工挑选一批新资源]
  C --> D[登记最小元信息]
  D --> E{是否有可用文字}
  E -->|有| F[直接提取文字]
  E -->|无| G[尝试 ASR]
  G --> H{ASR 是否成功}
  H -->|否| I[记录失败原因并暂挂]
  H -->|是| J[获得文字稿]
  F --> J
  J --> K[AI 归类]
  K --> L[写回样本与研究文档]
  I --> L
  L --> M{是否已形成稳定模式}
  M -->|否| C
  M -->|是| N[回写当前系统现实或目标范围]

当前最稳的研究方式不是让系统先做复杂价值判断,而是人工先挑资源,系统先拿文字,再基于文字做归类,把结果沉淀回样本和研究文档。