跳转到内容

旧版-内容研究与收敛流程

文档状态:历史证据 当前替代文档:../../03-新资源入库流程.md 为什么保留:保留拆分前的研究流程稿,便于回看新主文档是如何从两份旧流程稿合并而来。

文档性质:研究流程文档
用途:把“人工怎么先挑资源、系统如何转文字、何时归类、何时回写系统文档、何时进入数据库讨论”画成一条清晰流程
适用范围:播客批量采样、YouTube 来源发现、内容数据库方案收敛、交接说明
边界说明

  • 本文档描述的是“研究与收敛流程”,不是直接数据库实施流程
  • 当前系统现实仍以 ../../02-当前系统现实.md 为准
  • 当前执行边界仍以 ../../01-当前目标与范围.md 为准
  • 当前默认前提是:人工已经先做过一层资源筛选 最后更新:2026-04-03

当前建议不是直接跳 YouTube,也不是直接画数据库表,而是按下面顺序推进:

  1. 先读 00 / 10 / 20 三份执行层文档,确认边界没有漂移
  2. 人工先挑一批新资源
  3. 对这批资源先做“转文字”
  4. 对文字成功的资源直接做归类
  5. 把归类结果写回样本清单与研究文档
  6. 再从这些结果里收敛数据库讨论需要的字段、关系与准入墙

一句话判断:

当前更稳的流程不是“系统先复杂判定”,而是“人工先筛 -> 系统转文字 -> 系统归类 -> 研究层沉淀”。


当前最关键的现实前提是:

  • 资源不是系统自动全网乱抓
  • 而是人工已经先挑过一轮

在这个前提下,系统如果还重复去判:

  • 它是不是高价值
  • 它是不是值得研究
  • 它是不是 Phase 1 候选

就会变成重复劳动,而且会把逻辑压得过重。

当前更合理的分工应该是:

  • 人工负责:挑资源
  • 系统负责:转文字
  • AI 负责:归类

flowchart TD
  A[Start<br/>继续调研与收敛内容数据库方案] --> B[读取 00 / 10 / 20 核心文档]
  B --> C[人工挑选一批新资源]
  C --> D[登记最小元信息<br/>platform source_brand sample_name type url]
  D --> E{是否有现成文字稿或字幕}

  E -->|有| F[直接提取文字]
  E -->|无| G[走 ASR 转文字]

  G --> H{ASR 是否成功}
  H -->|否| I[记录 transcript_failed<br/>待人工补充或暂挂]
  H -->|是| J[获得文字稿]

  F --> J
  J --> K[AI 归类]
  K --> L[输出结构化结果<br/>level scene content_structure collection_direction]
  L --> M[写回样本清单与研究文档]
  M --> N{当前批次是否已形成稳定模式?}
  I --> N

  N -->|否| C
  N -->|是| O[汇总模式与冲突点]
  O --> P[回写研究层文档<br/>样本清单 mapping notes reasoning]
  P --> Q{是否已足够进入数据库方案讨论?}
  Q -->|否| R[继续扩新资源批次]
  R --> C
  Q -->|是| S[进入 Backend 内容数据库方案讨论]

回答:

  • 这条资源值不值得尝试入库
  • 这条资源是否值得继续看

这一层当前不交给系统做。

回答:

  • 有没有现成字幕 / transcript / article
  • 没有的话能不能 ASR
  • 当前到底拿不拿得到可用文字

这层是当前系统侧最重要的实际判断层。

回答:

  • level
  • scene
  • content_structure
  • recommended_collection_direction
  • 其他结构化字段

这层建立在文字可用的前提上。

回答:

  • 哪些资源最容易转文字
  • 哪些资源最容易稳定归类
  • 哪些字段最常缺
  • 数据库后面到底应该承接什么

如果下一轮要立刻推进,建议按下面顺序做:

  1. 先从已识别资源里人工挑一批
  2. 先补最小元信息,不急着补全四层字段
  3. 先跑文字路径
  4. 文字成功后再补 scene / level / content_structure / collection_direction
  5. 失败的先记失败原因,不硬做归类
  6. 一批跑完后再汇总模式

推荐先处理:

  • 已有原生 transcript / subtitle 的资源
  • description 较完整的资源
  • 语音密度高、较易 ASR 的资源

不建议第一轮优先处理:

  • 明显跨语混合节目
  • 明显工具型 / 题库型音频
  • 文字路径极弱、ASR 噪音很高的资源

6. 进入数据库方案讨论之前,至少要回答清楚的 5 个问题

Section titled “6. 进入数据库方案讨论之前,至少要回答清楚的 5 个问题”
  1. 当前音频 / 视频最稳定的文字路径分别是什么
  2. 文字失败最常见的原因是什么
  3. 哪些归类字段最容易稳定产出
  4. 哪些内容方向最容易形成可组织内容线
  5. 当前数据库应该优先承接哪一批最稳定的结构化结果

这 5 个问题没收敛前,不建议直接写数据库表结构。


当前最稳的推进方式是:人工先挑资源,系统先把资源转成可用文字,再基于文字做归类,把结果沉淀回样本与研究文档,最后再进入数据库方案讨论。