旧版-新资源轻量入库流程
Yomiya 新资源轻量入库流程
Section titled “Yomiya 新资源轻量入库流程”文档状态:历史证据 当前替代文档:
../../03-新资源入库流程.md为什么保留:保留轻量入库规则旧稿,便于核对“人工预筛选 -> 转文字 -> 归类”是如何收敛出来的。
文档性质:研究阶段轻量入库规则
用途:约束新播客、YouTube 等资源在人工已筛选前提下,如何进入“转文字 -> 归类 -> 后续入库讨论”流程
适用范围:人工挑选的新资源、播客补样本、YouTube 来源扩展、正式工程入库前的研究处理
边界说明:
- 本文档定义的是“人工预筛选后的系统处理流程”,不是完整数据库实施流程
- 当前系统现实仍以
../../02-当前系统现实.md为准 - 当前执行边界仍以
../../01-当前目标与范围.md为准 - 系统默认不再重复判断“这是不是好资源”,那一步已经由人工完成 最后更新:2026-04-03
1. 这份文档要解决的问题
Section titled “1. 这份文档要解决的问题”前一版逻辑的问题,不是判断本身完全错误,而是把系统侧的责任放得太重了。
真实工作流里,当前更接近的是:
- 人工已经先挑过一层资源
- 进入系统的,默认都是“值得试着入库”的候选
- 系统只需要解决:
- 能不能拿到可用文字
- 拿到文字后属于哪一类
因此,系统侧不该继续承担这些前置判断:
- 它是不是值得研究
- 它是不是高价值资源
- 它是不是 Phase 1 候选
- 它是不是内容型资源
这些判断当前都默认由人工前置完成。
系统侧当前应该只负责:
文字路径判定归类失败回退
一句话冻结:
人工先挑,系统不重复判值;系统只负责转文字、做归类、处理失败回退。
2. 当前建议采用的最简模型
Section titled “2. 当前建议采用的最简模型”当前最稳的处理方式只保留三步:
人工预筛选转文字归类
系统只保留一个很轻的兜底,不做复杂 gate:
- 如果明显拿不到可用文字,就进入失败或暂挂
- 如果文字可用,就直接归类
2.1 系统输出状态
Section titled “2.1 系统输出状态”当前只保留 4 个处理状态:
queued- 人工已挑选,等待处理
transcript_ready- 已拿到可用文字
transcript_failed- 当前无法拿到可用文字,需人工补充或暂挂
classified- 已完成归类,可进入后续样本沉淀或正式入库讨论
这 4 个状态描述的是处理进度,不是资源价值等级。
3. 系统到底负责什么
Section titled “3. 系统到底负责什么”3.1 步骤 A:登记最小元信息
Section titled “3.1 步骤 A:登记最小元信息”这一层只负责让资源进入处理队列,不做复杂判断。
最小必填建议只保留:
platformsource_brandsample_namesample_leveltypeurl或来源定位信息notes
如果是播客,优先登记:
- 节目名
- 单集名或节目名
- 平台链接
如果是 YouTube,优先登记:
- 频道名
- 视频名或播放列表名
- 视频 / 播放列表链接
3.2 步骤 B:判定文字路径
Section titled “3.2 步骤 B:判定文字路径”这一步是系统侧最重要的判断。
当前只问一个问题:
这条资源有没有办法拿到可用文字。
统一只分三类来源:
native- 平台原生 transcript、caption、subtitle、article、description
generated- 没有现成文字,但可以用 ASR 生成
failed- 当前既没有现成文字,也无法得到可用 ASR
优先级:
- 平台原生 transcript / show notes / description
- RSS description 或附带文字
- ASR
优先级:
- 原生 captions / subtitle
- 视频 description 或配套 article
- 抽音轨做 ASR
这一层的原则
Section titled “这一层的原则”- 不去讨论这资源值不值
- 只讨论“文字现在拿不拿得到”
- 能拿到就继续,拿不到就先挂起
3.3 步骤 C:归类
Section titled “3.3 步骤 C:归类”只要文字可用,就直接进入归类。
当前归类输出建议只保留这些字段:
typetranscript_availabilitytranscript_sourcetranscript_quality_expectationlevelscenecontent_structurerecommended_channelrecommended_collection_directionseries_candidate
如果是当前研究阶段,还可以顺手保留:
cross_media_expandabilityitem_derivation_valueitem_derivation_form
但这些是补充输出,不再作为前置 gate。
当前归类依赖关系
Section titled “当前归类依赖关系”最重要的依赖很简单:
- 没有文字,不做稳定归类
- 有文字,再结合标题 / 简介 / 元信息做归类
也就是说:
归类依赖文字成功,不依赖复杂 intake benchmark。
3.4 步骤 D:失败回退
Section titled “3.4 步骤 D:失败回退”如果文字失败,不要硬做分类。
当前只保留两种处理:
待人工补充- 例如人工补标题说明、补 transcript 来源、补外部文字稿
暂挂- 先不继续处理,等后续再看
失败时至少要记录:
- 为什么失败
- 是无字幕、无 transcript、ASR 不可用,还是噪音太高
4. 轻量兜底,而不是复杂 gate
Section titled “4. 轻量兜底,而不是复杂 gate”虽然系统不再负责“资源值不值得入”,但仍然可以保留一个很轻的异常拦截:
- 文字结果明显不是日语主体
- ASR 结果噪音极高,无法支撑归类
- 视频几乎没有可解析语音
这类情况不叫“内容不值得入”,而叫:
当前无法完成稳定转文字与归类。
这时进入 transcript_failed 或人工补充,不再展开复杂评分。
5. 音频 / 视频的最小处理方式
Section titled “5. 音频 / 视频的最小处理方式”5.1 音频
Section titled “5.1 音频”默认流程:
- 人工挑中音频资源
- 登记最小元信息
- 找原生 transcript / description
- 没有就做 ASR
- 成功后归类
- 失败则人工补充或暂挂
音频此时不需要系统先判断:
- 是不是高价值播客
- 是不是 Phase 1 候选
- 是不是某个研究优先级分层
这些都已经默认包含在人工前置选择里。
5.2 视频
Section titled “5.2 视频”默认流程:
- 人工挑中视频资源
- 登记最小元信息
- 优先取原字幕
- 没字幕就抽音轨做 ASR
- 成功后归类
- 如果极度依赖画面导致文字不足,再人工补方向备注
视频此时也不需要系统再先做多层价值判断。
6. 依赖关系冻结表
Section titled “6. 依赖关系冻结表”| 处理结果 | 依赖什么 | 不应怎么做 |
|---|---|---|
transcript_ready | 原字幕 / 原文 / ASR 任一成功 | 不要还没拿到文字就先做完整归类 |
transcript_failed | 原字幕缺失且 ASR 失败 | 不要硬把失败样本归类进方向 |
level / scene / content_structure | 标题 / 简介 / 文字稿 / 基础元信息 | 不要重新发明前置 value gate |
recommended_collection_direction | 归类结果 | 不要先想 Collection 再倒推内容 |
| 后续正式入库讨论 | 文字成功 + 归类完成 | 不要让系统重复判“值不值得看” |
7. 全流程图
Section titled “7. 全流程图”flowchart TD
A[人工挑选新资源] --> B[登记最小元信息<br/>platform source_brand sample_name type url]
B --> C{是否有现成文字稿或字幕}
C -->|有| D[直接取文字]
C -->|无| E[走 ASR 转文字]
E --> F{ASR 是否成功}
F -->|否| G[标记 transcript_failed<br/>待人工补充或暂挂]
F -->|是| H[得到文字稿]
D --> H
H --> I[AI 归类]
I --> J[输出结构化结果<br/>transcript_source level scene content_structure collection_direction]
J --> K[状态更新为 classified]
K --> L[进入样本沉淀<br/>或后续正式入库讨论]
8. 当前建议的实际用法
Section titled “8. 当前建议的实际用法”8.1 新资源进来时
Section titled “8.1 新资源进来时”不要先问:
- 它是不是某个研究池状态
- 它是不是某个候选等级
- 它是不是高优先级
先问:
- 有没有现成文字
- 没有的话能不能 ASR
- 拿到文字后属于哪一类
8.2 样本表怎么用
Section titled “8.2 样本表怎么用”样本表现在更适合承接:
- 已经拿到文字并完成初步归类的资源
- 或者文字失败、但人工仍想保留观察的资源
8.3 后续什么时候再讨论复杂判断
Section titled “8.3 后续什么时候再讨论复杂判断”只有当你们开始进入正式工程落库、批量化自动入库、或者首页分发资格控制时,才需要重新引入更复杂的 gate。
当前阶段不需要。
9. 一句话总结
Section titled “9. 一句话总结”Yomiya 当前更合理的新资源处理逻辑,不是让系统重复判断“值不值得入”,而是默认人工已经做过这层筛选;系统只负责判断文字路径、完成转文字、输出归类结果,以及在文字失败时进入人工补充或暂挂。