旧版-内容研究与收敛流程
Yomiya 内容研究与收敛流程
Section titled “Yomiya 内容研究与收敛流程”文档状态:历史证据 当前替代文档:
../../03-新资源入库流程.md为什么保留:保留拆分前的研究流程稿,便于回看新主文档是如何从两份旧流程稿合并而来。
文档性质:研究流程文档
用途:把“人工怎么先挑资源、系统如何转文字、何时归类、何时回写系统文档、何时进入数据库讨论”画成一条清晰流程
适用范围:播客批量采样、YouTube 来源发现、内容数据库方案收敛、交接说明
边界说明:
- 本文档描述的是“研究与收敛流程”,不是直接数据库实施流程
- 当前系统现实仍以
../../02-当前系统现实.md为准 - 当前执行边界仍以
../../01-当前目标与范围.md为准 - 当前默认前提是:人工已经先做过一层资源筛选 最后更新:2026-04-03
1. 当前建议的推进顺序
Section titled “1. 当前建议的推进顺序”当前建议不是直接跳 YouTube,也不是直接画数据库表,而是按下面顺序推进:
- 先读
00 / 10 / 20三份执行层文档,确认边界没有漂移 - 人工先挑一批新资源
- 对这批资源先做“转文字”
- 对文字成功的资源直接做归类
- 把归类结果写回样本清单与研究文档
- 再从这些结果里收敛数据库讨论需要的字段、关系与准入墙
一句话判断:
当前更稳的流程不是“系统先复杂判定”,而是“人工先筛 -> 系统转文字 -> 系统归类 -> 研究层沉淀”。
2. 为什么这样更合适
Section titled “2. 为什么这样更合适”当前最关键的现实前提是:
- 资源不是系统自动全网乱抓
- 而是人工已经先挑过一轮
在这个前提下,系统如果还重复去判:
- 它是不是高价值
- 它是不是值得研究
- 它是不是 Phase 1 候选
就会变成重复劳动,而且会把逻辑压得过重。
当前更合理的分工应该是:
- 人工负责:挑资源
- 系统负责:转文字
- AI 负责:归类
3. 整体流程图
Section titled “3. 整体流程图”flowchart TD
A[Start<br/>继续调研与收敛内容数据库方案] --> B[读取 00 / 10 / 20 核心文档]
B --> C[人工挑选一批新资源]
C --> D[登记最小元信息<br/>platform source_brand sample_name type url]
D --> E{是否有现成文字稿或字幕}
E -->|有| F[直接提取文字]
E -->|无| G[走 ASR 转文字]
G --> H{ASR 是否成功}
H -->|否| I[记录 transcript_failed<br/>待人工补充或暂挂]
H -->|是| J[获得文字稿]
F --> J
J --> K[AI 归类]
K --> L[输出结构化结果<br/>level scene content_structure collection_direction]
L --> M[写回样本清单与研究文档]
M --> N{当前批次是否已形成稳定模式?}
I --> N
N -->|否| C
N -->|是| O[汇总模式与冲突点]
O --> P[回写研究层文档<br/>样本清单 mapping notes reasoning]
P --> Q{是否已足够进入数据库方案讨论?}
Q -->|否| R[继续扩新资源批次]
R --> C
Q -->|是| S[进入 Backend 内容数据库方案讨论]
4. 图里每一层到底在做什么
Section titled “4. 图里每一层到底在做什么”4.1 人工预筛选层
Section titled “4.1 人工预筛选层”回答:
- 这条资源值不值得尝试入库
- 这条资源是否值得继续看
这一层当前不交给系统做。
4.2 转文字层
Section titled “4.2 转文字层”回答:
- 有没有现成字幕 / transcript / article
- 没有的话能不能 ASR
- 当前到底拿不拿得到可用文字
这层是当前系统侧最重要的实际判断层。
4.3 归类层
Section titled “4.3 归类层”回答:
levelscenecontent_structurerecommended_collection_direction- 其他结构化字段
这层建立在文字可用的前提上。
4.4 研究沉淀层
Section titled “4.4 研究沉淀层”回答:
- 哪些资源最容易转文字
- 哪些资源最容易稳定归类
- 哪些字段最常缺
- 数据库后面到底应该承接什么
5. 当前推荐的实际执行顺序
Section titled “5. 当前推荐的实际执行顺序”如果下一轮要立刻推进,建议按下面顺序做:
- 先从已识别资源里人工挑一批
- 先补最小元信息,不急着补全四层字段
- 先跑文字路径
- 文字成功后再补
scene / level / content_structure / collection_direction - 失败的先记失败原因,不硬做归类
- 一批跑完后再汇总模式
推荐先处理:
- 已有原生 transcript / subtitle 的资源
- description 较完整的资源
- 语音密度高、较易 ASR 的资源
不建议第一轮优先处理:
- 明显跨语混合节目
- 明显工具型 / 题库型音频
- 文字路径极弱、ASR 噪音很高的资源
6. 进入数据库方案讨论之前,至少要回答清楚的 5 个问题
Section titled “6. 进入数据库方案讨论之前,至少要回答清楚的 5 个问题”- 当前音频 / 视频最稳定的文字路径分别是什么
- 文字失败最常见的原因是什么
- 哪些归类字段最容易稳定产出
- 哪些内容方向最容易形成可组织内容线
- 当前数据库应该优先承接哪一批最稳定的结构化结果
这 5 个问题没收敛前,不建议直接写数据库表结构。
7. 一句话总结
Section titled “7. 一句话总结”当前最稳的推进方式是:人工先挑资源,系统先把资源转成可用文字,再基于文字做归类,把结果沉淀回样本与研究文档,最后再进入数据库方案讨论。