旧版-内容研究与收敛流程

Yomiya 内容研究与收敛流程

文档状态：历史证据当前替代文档：../../03-新资源入库流程.md 为什么保留：保留拆分前的研究流程稿，便于回看新主文档是如何从两份旧流程稿合并而来。

文档性质：研究流程文档
用途：把“人工怎么先挑资源、系统如何转文字、何时归类、何时回写系统文档、何时进入数据库讨论”画成一条清晰流程
适用范围：播客批量采样、YouTube 来源发现、内容数据库方案收敛、交接说明
边界说明：

本文档描述的是“研究与收敛流程”，不是直接数据库实施流程
当前系统现实仍以 ../../02-当前系统现实.md 为准
当前执行边界仍以 ../../01-当前目标与范围.md 为准
当前默认前提是：人工已经先做过一层资源筛选 最后更新：2026-04-03

1. 当前建议的推进顺序

当前建议不是直接跳 YouTube，也不是直接画数据库表，而是按下面顺序推进：

先读 00 / 10 / 20 三份执行层文档，确认边界没有漂移
人工先挑一批新资源
对这批资源先做“转文字”
对文字成功的资源直接做归类
把归类结果写回样本清单与研究文档
再从这些结果里收敛数据库讨论需要的字段、关系与准入墙

一句话判断：

当前更稳的流程不是“系统先复杂判定”，而是“人工先筛 -> 系统转文字 -> 系统归类 -> 研究层沉淀”。

2. 为什么这样更合适

当前最关键的现实前提是：

资源不是系统自动全网乱抓
而是人工已经先挑过一轮

在这个前提下，系统如果还重复去判：

它是不是高价值
它是不是值得研究
它是不是 Phase 1 候选

就会变成重复劳动，而且会把逻辑压得过重。

当前更合理的分工应该是：

人工负责：挑资源
系统负责：转文字
AI 负责：归类

3. 整体流程图

flowchart TD
  A[Start<br/>继续调研与收敛内容数据库方案] --> B[读取 00 / 10 / 20 核心文档]
  B --> C[人工挑选一批新资源]
  C --> D[登记最小元信息<br/>platform source_brand sample_name type url]
  D --> E{是否有现成文字稿或字幕}

  E -->|有| F[直接提取文字]
  E -->|无| G[走 ASR 转文字]

  G --> H{ASR 是否成功}
  H -->|否| I[记录 transcript_failed<br/>待人工补充或暂挂]
  H -->|是| J[获得文字稿]

  F --> J
  J --> K[AI 归类]
  K --> L[输出结构化结果<br/>level scene content_structure collection_direction]
  L --> M[写回样本清单与研究文档]
  M --> N{当前批次是否已形成稳定模式?}
  I --> N

  N -->|否| C
  N -->|是| O[汇总模式与冲突点]
  O --> P[回写研究层文档<br/>样本清单 mapping notes reasoning]
  P --> Q{是否已足够进入数据库方案讨论?}
  Q -->|否| R[继续扩新资源批次]
  R --> C
  Q -->|是| S[进入 Backend 内容数据库方案讨论]

4. 图里每一层到底在做什么

4.1 人工预筛选层

回答：

这条资源值不值得尝试入库
这条资源是否值得继续看

这一层当前不交给系统做。

4.2 转文字层

回答：

有没有现成字幕 / transcript / article
没有的话能不能 ASR
当前到底拿不拿得到可用文字

这层是当前系统侧最重要的实际判断层。

4.3 归类层

回答：

level
scene
content_structure
recommended_collection_direction
其他结构化字段

这层建立在文字可用的前提上。

4.4 研究沉淀层

回答：

哪些资源最容易转文字
哪些资源最容易稳定归类
哪些字段最常缺
数据库后面到底应该承接什么

5. 当前推荐的实际执行顺序

如果下一轮要立刻推进，建议按下面顺序做：

先从已识别资源里人工挑一批
先补最小元信息，不急着补全四层字段
先跑文字路径
文字成功后再补 scene / level / content_structure / collection_direction
失败的先记失败原因，不硬做归类
一批跑完后再汇总模式

推荐先处理：

已有原生 transcript / subtitle 的资源
description 较完整的资源
语音密度高、较易 ASR 的资源

不建议第一轮优先处理：

明显跨语混合节目
明显工具型 / 题库型音频
文字路径极弱、ASR 噪音很高的资源

6. 进入数据库方案讨论之前，至少要回答清楚的 5 个问题

当前音频 / 视频最稳定的文字路径分别是什么
文字失败最常见的原因是什么
哪些归类字段最容易稳定产出
哪些内容方向最容易形成可组织内容线
当前数据库应该优先承接哪一批最稳定的结构化结果

这 5 个问题没收敛前，不建议直接写数据库表结构。

7. 一句话总结

当前最稳的推进方式是：人工先挑资源，系统先把资源转成可用文字，再基于文字做归类，把结果沉淀回样本与研究文档，最后再进入数据库方案讨论。