03-新资源入库流程

文档性质：当前新资源研究主流程
用途：把人工预筛选后的新资源，统一纳入“转文字 -> 归类 -> 失败回退 -> 研究沉淀”的最简流程
适用范围：播客补样本、YouTube 来源扩展、B 站样本探索、进入数据库方案讨论前的研究处理
边界说明：

当前系统现实仍以 ./02-当前系统现实.md 为准
当前执行边界仍以 ./01-当前目标与范围.md 为准
如果是在讨论 YouTube 自动扩源、候选确认和为什么推荐，先看 ./09-YouTube主动发现、候选确认与入库衔接.md
这里描述的是“研究 / 补样本 / 入库判断前”的工作流，不等于 yomiya-service 当前生产处理链路全貌
官方供给内容当前已有正式处理链路：风控、难度、scene、通知型发布
用户导入内容当前也有正式处理链路，但会跳过风控和难度
这份文档默认不再重复判断“这是不是好资源”，那一步已经由人工完成 最后更新：2026-04-16

1. 当前固定原则

在这份研究流程里，当前最重要的冻结只有一句话：

人工先筛，系统不重复判值；系统只负责转文字、做归类、处理失败回退。

当前要补一个现实口径：

研究主入口仍然是人工预筛
但 YouTube 现在允许多一个上游补充入口，也就是 09 中的“自动候选确认”
只要候选已经被人工确认“值得继续”，它后面进入本流程的方式和人工预筛资源是一致的

这意味着这份研究流程当前不负责这些前置判断：

它是不是高价值资源
它是不是 Phase 1 候选
它是不是值得研究
它是不是内容型资源

这些都默认由人工预筛选先完成。

2. 当前默认推进顺序

先确认主路径没有漂移
先看 ./01-当前目标与范围.md、./02-当前系统现实.md
通过两种方式之一拿到“已确认值得继续”的新资源
- 人工预筛
- 09 自动候选发现后的人为确认
登记最小元信息
先解决文字路径
文字成功后再做归类
把结果写回样本清单和研究文档
一批跑完后，再从结果里抽数据库讨论需要的字段、关系和约束

3. 研究流程当前只保留的 4 个状态

当前研究流程只保留下面 4 个处理状态：

queued 人工已挑选，等待处理
transcript_ready 已拿到可用文字
transcript_failed 当前无法拿到可用文字，需人工补充或暂挂
classified 已完成归类，可进入样本沉淀或正式入库讨论

这 4 个状态描述的是处理进度，不是资源价值等级。

同时要注意：

这 4 个状态是研究文档里的工作状态，不是 yomiya-service 当前数据库枚举
服务端当前实际还存在 processing / completed / rejected / failed 等状态，不应和这里混写

stateDiagram-v2
  [*] --> queued
  queued --> transcript_ready: 拿到可用文字
  queued --> transcript_failed: 原生文字缺失且 ASR 失败
  transcript_failed --> queued: 人工补充后重试
  transcript_ready --> classified: 完成归类
  classified --> [*]

这张状态图只表达研究处理进度，不表达资源价值高低。

4. 步骤 A：登记最小元信息

这一层只负责让资源进入处理队列，不做复杂 gate。

最小必填建议只保留：

platform
source_brand
sample_name
sample_level
type
url 或来源定位信息
notes

如果是播客，优先登记：

节目名
单集名或节目名
平台链接

如果是 YouTube 或 B 站，优先登记：

频道名 / UP 主名
视频名或播放列表名
视频 / 播放列表链接

5. 步骤 B：只判定文字路径

研究侧最重要的判断只有一个：

这条资源现在有没有办法拿到可用文字。

统一只分三类来源：

native 平台原生 transcript、caption、subtitle、article、description
generated 没有现成文字，但可以用 ASR 生成
failed 当前既没有现成文字，也无法得到可用 ASR

音频优先级

平台原生 transcript / show notes / description
RSS description 或附带文字
ASR

视频优先级

原生 captions / subtitle
视频 description 或配套 article
抽音轨做 ASR

这一层的原则

不讨论资源值不值
只讨论文字能不能拿到
能拿到就继续
拿不到就先挂起

6. 步骤 C：文字成功后直接归类

只要文字可用，就直接进入归类。

当前归类输出建议只保留这些字段：

type
transcript_availability
transcript_source
transcript_quality_expectation
level
scene
content_structure
recommended_channel
recommended_collection_direction
series_candidate

如果还在研究阶段，可以顺手保留：

cross_media_expandability
item_derivation_value
item_derivation_form

但这些是补充输出，不再作为前置 gate。

当前归类依赖关系

没有文字，不做稳定归类
有文字，再结合标题 / 简介 / 元信息做归类

也就是说：

归类依赖文字成功，不依赖复杂的系统侧价值判断。

7. 步骤 D：失败回退

如果文字失败，不要硬做分类。

当前只保留两种处理：

待人工补充 例如补 transcript 来源、补标题说明、补外部文字稿
暂挂 当前先不继续处理，等后续再看

失败时至少要记录：

为什么失败
是无字幕、无 transcript、ASR 不可用，还是噪音太高

8. 轻量兜底，而不是复杂 gate

虽然这份研究流程不再负责“资源值不值得入”，但仍可以保留一个很轻的异常拦截：

文字结果明显不是日语主体
ASR 结果噪音极高，无法支撑归类
视频几乎没有可解析语音

这类情况不叫“资源不值得入”，而叫：

当前无法完成稳定转文字与归类。

这时进入 transcript_failed 或人工补充，不再展开复杂评分。

9. 研究层怎么回写

新资源处理完以后，默认按这个顺序回写：

统一写入 ./04-内容样本池.md
- 播客、YouTube、执行状态、链接附录都在这一份里维护
再根据新模式调整 ./archive/research/播客与视频统一分析标准.md
如果已经形成稳定目标理想或结构差距，再回写 ./02-当前系统现实.md
如果牵涉当前阶段边界，再同步 ./01-当前目标与范围.md

进入数据库方案讨论之前，至少要回答清楚这 5 个问题：

音频 / 视频最稳定的文字路径分别是什么
文字失败最常见的原因是什么
哪些归类字段最容易稳定产出
哪些内容方向最容易形成可组织内容线
当前数据库应该优先承接哪一批最稳定的结构化结果

这 5 个问题没收敛前，不建议直接写数据库表结构。

10. 当前推荐的实际执行顺序

如果下一轮要立刻推进，建议按下面顺序做：

先从已识别资源里人工挑一批
先补最小元信息，不急着补全四层字段
先跑文字路径
文字成功后再补 scene / level / content_structure / collection_direction
失败的先记失败原因，不硬做归类
一批跑完后再汇总模式

推荐先处理：

已有原生 transcript / subtitle 的资源
description 较完整的资源
语音密度高、较易 ASR 的资源

不建议第一轮优先处理：

明显跨语混合节目
明显工具型 / 题库型音频
文字路径极弱、ASR 噪音很高的资源

11. 流程图

flowchart TD
  A[开始] --> B[先确认主路径文档]
  B --> C[人工挑选一批新资源]
  C --> D[登记最小元信息]
  D --> E{是否有可用文字}
  E -->|有| F[直接提取文字]
  E -->|无| G[尝试 ASR]
  G --> H{ASR 是否成功}
  H -->|否| I[记录失败原因并暂挂]
  H -->|是| J[获得文字稿]
  F --> J
  J --> K[AI 归类]
  K --> L[写回样本与研究文档]
  I --> L
  L --> M{是否已形成稳定模式}
  M -->|否| C
  M -->|是| N[回写当前系统现实或目标范围]

12. 一句话总结

当前最稳的研究方式不是让系统先做复杂价值判断，而是人工先挑资源，系统先拿文字，再基于文字做归类，把结果沉淀回样本和研究文档。