03-新资源入库流程
03-新资源入库流程
Section titled “03-新资源入库流程”文档性质:当前新资源研究主流程
用途:把人工预筛选后的新资源,统一纳入“转文字 -> 归类 -> 失败回退 -> 研究沉淀”的最简流程
适用范围:播客补样本、YouTube 来源扩展、B 站样本探索、进入数据库方案讨论前的研究处理
边界说明:
- 当前系统现实仍以
./02-当前系统现实.md为准 - 当前执行边界仍以
./01-当前目标与范围.md为准 - 如果是在讨论 YouTube 自动扩源、候选确认和为什么推荐,先看
./09-YouTube主动发现、候选确认与入库衔接.md - 这里描述的是“研究 / 补样本 / 入库判断前”的工作流,不等于
yomiya-service当前生产处理链路全貌 - 官方供给内容当前已有正式处理链路:风控、难度、scene、通知型发布
- 用户导入内容当前也有正式处理链路,但会跳过风控和难度
- 这份文档默认不再重复判断“这是不是好资源”,那一步已经由人工完成 最后更新:2026-04-16
1. 当前固定原则
Section titled “1. 当前固定原则”在这份研究流程里,当前最重要的冻结只有一句话:
人工先筛,系统不重复判值;系统只负责转文字、做归类、处理失败回退。
当前要补一个现实口径:
- 研究主入口仍然是人工预筛
- 但 YouTube 现在允许多一个上游补充入口,也就是
09中的“自动候选确认” - 只要候选已经被人工确认“值得继续”,它后面进入本流程的方式和人工预筛资源是一致的
这意味着这份研究流程当前不负责这些前置判断:
- 它是不是高价值资源
- 它是不是 Phase 1 候选
- 它是不是值得研究
- 它是不是内容型资源
这些都默认由人工预筛选先完成。
2. 当前默认推进顺序
Section titled “2. 当前默认推进顺序”- 先确认主路径没有漂移
先看./01-当前目标与范围.md、./02-当前系统现实.md - 通过两种方式之一拿到“已确认值得继续”的新资源
- 人工预筛
09自动候选发现后的人为确认
- 登记最小元信息
- 先解决文字路径
- 文字成功后再做归类
- 把结果写回样本清单和研究文档
- 一批跑完后,再从结果里抽数据库讨论需要的字段、关系和约束
3. 研究流程当前只保留的 4 个状态
Section titled “3. 研究流程当前只保留的 4 个状态”当前研究流程只保留下面 4 个处理状态:
queued人工已挑选,等待处理transcript_ready已拿到可用文字transcript_failed当前无法拿到可用文字,需人工补充或暂挂classified已完成归类,可进入样本沉淀或正式入库讨论
这 4 个状态描述的是处理进度,不是资源价值等级。
同时要注意:
- 这 4 个状态是研究文档里的工作状态,不是
yomiya-service当前数据库枚举 - 服务端当前实际还存在
processing / completed / rejected / failed等状态,不应和这里混写
stateDiagram-v2 [*] --> queued queued --> transcript_ready: 拿到可用文字 queued --> transcript_failed: 原生文字缺失且 ASR 失败 transcript_failed --> queued: 人工补充后重试 transcript_ready --> classified: 完成归类 classified --> [*]
这张状态图只表达研究处理进度,不表达资源价值高低。
4. 步骤 A:登记最小元信息
Section titled “4. 步骤 A:登记最小元信息”这一层只负责让资源进入处理队列,不做复杂 gate。
最小必填建议只保留:
platformsource_brandsample_namesample_leveltypeurl或来源定位信息notes
如果是播客,优先登记:
- 节目名
- 单集名或节目名
- 平台链接
如果是 YouTube 或 B 站,优先登记:
- 频道名 / UP 主名
- 视频名或播放列表名
- 视频 / 播放列表链接
5. 步骤 B:只判定文字路径
Section titled “5. 步骤 B:只判定文字路径”研究侧最重要的判断只有一个:
这条资源现在有没有办法拿到可用文字。
统一只分三类来源:
native平台原生 transcript、caption、subtitle、article、descriptiongenerated没有现成文字,但可以用 ASR 生成failed当前既没有现成文字,也无法得到可用 ASR
- 平台原生 transcript / show notes / description
- RSS description 或附带文字
- ASR
- 原生 captions / subtitle
- 视频 description 或配套 article
- 抽音轨做 ASR
这一层的原则
Section titled “这一层的原则”- 不讨论资源值不值
- 只讨论文字能不能拿到
- 能拿到就继续
- 拿不到就先挂起
6. 步骤 C:文字成功后直接归类
Section titled “6. 步骤 C:文字成功后直接归类”只要文字可用,就直接进入归类。
当前归类输出建议只保留这些字段:
typetranscript_availabilitytranscript_sourcetranscript_quality_expectationlevelscenecontent_structurerecommended_channelrecommended_collection_directionseries_candidate
如果还在研究阶段,可以顺手保留:
cross_media_expandabilityitem_derivation_valueitem_derivation_form
但这些是补充输出,不再作为前置 gate。
当前归类依赖关系
Section titled “当前归类依赖关系”- 没有文字,不做稳定归类
- 有文字,再结合标题 / 简介 / 元信息做归类
也就是说:
归类依赖文字成功,不依赖复杂的系统侧价值判断。
7. 步骤 D:失败回退
Section titled “7. 步骤 D:失败回退”如果文字失败,不要硬做分类。
当前只保留两种处理:
待人工补充例如补 transcript 来源、补标题说明、补外部文字稿暂挂当前先不继续处理,等后续再看
失败时至少要记录:
- 为什么失败
- 是无字幕、无 transcript、ASR 不可用,还是噪音太高
8. 轻量兜底,而不是复杂 gate
Section titled “8. 轻量兜底,而不是复杂 gate”虽然这份研究流程不再负责“资源值不值得入”,但仍可以保留一个很轻的异常拦截:
- 文字结果明显不是日语主体
- ASR 结果噪音极高,无法支撑归类
- 视频几乎没有可解析语音
这类情况不叫“资源不值得入”,而叫:
当前无法完成稳定转文字与归类。
这时进入 transcript_failed 或人工补充,不再展开复杂评分。
9. 研究层怎么回写
Section titled “9. 研究层怎么回写”新资源处理完以后,默认按这个顺序回写:
- 统一写入
./04-内容样本池.md- 播客、YouTube、执行状态、链接附录都在这一份里维护
- 再根据新模式调整
./archive/research/播客与视频统一分析标准.md - 如果已经形成稳定目标理想或结构差距,再回写
./02-当前系统现实.md - 如果牵涉当前阶段边界,再同步
./01-当前目标与范围.md
进入数据库方案讨论之前,至少要回答清楚这 5 个问题:
- 音频 / 视频最稳定的文字路径分别是什么
- 文字失败最常见的原因是什么
- 哪些归类字段最容易稳定产出
- 哪些内容方向最容易形成可组织内容线
- 当前数据库应该优先承接哪一批最稳定的结构化结果
这 5 个问题没收敛前,不建议直接写数据库表结构。
10. 当前推荐的实际执行顺序
Section titled “10. 当前推荐的实际执行顺序”如果下一轮要立刻推进,建议按下面顺序做:
- 先从已识别资源里人工挑一批
- 先补最小元信息,不急着补全四层字段
- 先跑文字路径
- 文字成功后再补
scene / level / content_structure / collection_direction - 失败的先记失败原因,不硬做归类
- 一批跑完后再汇总模式
推荐先处理:
- 已有原生 transcript / subtitle 的资源
- description 较完整的资源
- 语音密度高、较易 ASR 的资源
不建议第一轮优先处理:
- 明显跨语混合节目
- 明显工具型 / 题库型音频
- 文字路径极弱、ASR 噪音很高的资源
11. 流程图
Section titled “11. 流程图”flowchart TD
A[开始] --> B[先确认主路径文档]
B --> C[人工挑选一批新资源]
C --> D[登记最小元信息]
D --> E{是否有可用文字}
E -->|有| F[直接提取文字]
E -->|无| G[尝试 ASR]
G --> H{ASR 是否成功}
H -->|否| I[记录失败原因并暂挂]
H -->|是| J[获得文字稿]
F --> J
J --> K[AI 归类]
K --> L[写回样本与研究文档]
I --> L
L --> M{是否已形成稳定模式}
M -->|否| C
M -->|是| N[回写当前系统现实或目标范围]
12. 一句话总结
Section titled “12. 一句话总结”当前最稳的研究方式不是让系统先做复杂价值判断,而是人工先挑资源,系统先拿文字,再基于文字做归类,把结果沉淀回样本和研究文档。