内容资产分层

Yomiya 内容资产分层与沉淀判断

文档状态：历史证据当前替代文档：../../02-当前系统现实.md 为什么保留：保留内容资产分层推理过程，便于在需要时追溯“为什么这样理解 item 与资产层级”。

文档性质：内容数据库方案研究层判断文档
用途：沉淀“原始内容 / 转写文本 / AI 结构化 / 最小 item”之间的关系，避免后续只记结论、不知道为什么
适用范围：播客样本补充、YouTube 来源发现、内容数据库方案收敛、Collection 承载边界讨论
边界说明：

本文档用于保存研究层 reasoning，不直接宣布当前系统已经落库什么
当前系统现实仍以 ../../02-当前系统现实.md 为准
当前执行边界仍以 ../../01-当前目标与范围.md 为准 最后更新：2026-04-03

1. 这份文档要解决的问题

当前继续讨论内容数据库方案时，最容易提前拍死一条看起来顺手、但其实风险很大的路径：

外部内容 -> 转文字 -> AI 沉淀最小 item -> 系统

这条路径的问题不是完全错误，而是太容易把几层本来不同的资产压成一层，导致后续讨论里不断混淆：

原始内容是不是还重要
转写文本是不是唯一事实层
AI 结构化结果是不是可以直接当系统主对象
Collection 到底应该组织原始内容，还是组织 AI 切出来的 item

因此，本文件的目标不是立刻定义数据库表，而是先回答：

Yomiya 到底在沉淀哪几层资产，这几层之间应该如何约束，为什么当前不能把它们混成一层。

2. 当前建议采用的默认判断

当前更稳的默认框架不是“文本中心”，而是“四层资产模型”：

原始内容层
转写文本层
AI 结构化层
派生最小 item 层

一句话冻结：

原始内容是母对象，转写文本是重要中间层，AI 结构化是解释层，最小 item 先只作为候选派生层，不先升格为当前主对象。

3. 为什么不直接采用“文本中心”方案

3.1 文本不是音视频的完整事实层

如果把“转写文本”直接当成唯一事实层，会过早丢掉音视频原本自带的关键信号：

语速
停顿
说话人结构
对话密度
情绪与语气
镜头切换与剪辑节奏

这些信号虽然不一定都要现在结构化，但它们会直接影响：

level
content_structure
scene
内容是否适合进入 Phase 1 主路径

所以，转写文本非常重要，但它不能替代原始媒体与原始元信息。

3.2 当前系统现实也不是“文本主对象”

从当前系统现实看，主内容对象仍然是 news，而不是句子、片段或 AI 切分后的细粒度单元。

也就是说，哪怕后续会把音视频进一步切分，当前最稳的承载起点仍然是：

一条图文
一条视频
一条音频

而不是默认从“句子”或“最小知识点”开始。

3.3 过早把最小 item 定成主对象，会把问题复杂化

如果现在先把“最小 item”定成数据库主轴，会立刻带出一连串还没有被证明成立的问题：

最小 item 到底是句子、片段、知识点，还是摘要卡片
不同媒介是否应该共用同一种最小 item
Collection 组织的到底是原始内容，还是二级 item
首页展示的主要消费单元到底是什么

这些问题当前都还没收敛。
因此，先把“最小 item”定义成候选派生层，比直接把它升格成主对象更稳。

4. 四层资产模型

4.1 原始内容层

定义：用户在外部平台真实消费的原始单元。
典型对象：

一篇图文
一条 YouTube 视频
一集播客

当前地位：

它是当前唯一必须稳定存在的母对象
也是当前最接近 news 的现实层
后续 Collection 与首页分发，默认应先围绕这一层讨论

它回答的问题：

用户真正点开的是什么
系统稳定入库的基本单元是什么
哪个对象天然适合承接来源、发布时间、时长、封面、原始 URL 等元信息

4.2 转写文本层

定义：从图文正文、字幕、ASR、OCR 等方式得到的文本化中间层。
当前地位：

它是非常重要的中间层
但不是唯一事实层
它服务于后续分类、理解、检索、切分和复用

它回答的问题：

AI 能拿什么做结构化判断
内容能否支持更细粒度理解与切分
检索、摘要、片段提取从哪里开始

当前判断：

图文天生已有较强文本层
视频和音频的文本层质量会受字幕质量、ASR 质量、说话方式影响
因此“是否容易得到高质量转写”本身就是内容源研究的重要维度

4.3 AI 结构化层

定义：基于原始内容与文本层，产出的解释性结构化判断结果。
典型输出：

scene
level
content_structure
phase1_fit
recommended_channel
recommended_collection_direction

当前地位：

它是解释层，不是原始事实层
它的作用是让系统知道“这条内容更像什么、适合放哪、值不值得分发”

它回答的问题：

这条内容属于什么方向
它适合首页主路径还是补充层
它更像 Collection 候选，还是 Series 候选

4.4 派生最小 item 层

定义：从原始内容和文本层进一步拆出来的更小单元。
可能形态：

句子
片段
片段主题
金句
可单独复用的学习卡片

当前地位：

先只把它看作候选派生层
当前不默认它就是主对象
也不默认所有内容都必须切到这一层

它回答的问题：

哪些内容值得进一步切分
切出来的更小单元服务什么场景
是否有必要让细粒度单元参与推荐、合集组织或学习复用

5. 当前应先冻结的 4 条工作假设

假设 1：原始内容是当前唯一必须稳定存在的母对象

后续数据库方案、API 方案、后台能力，都应先保证原始内容层可以稳定承接：

图文
视频
音频
基础标签与分发判断

在这件事没立住之前，不要把主要精力先切到细粒度 item。

假设 2：转写文本是重要中间层，但不是唯一事实层

后续研究和数据库讨论里，可以把文本层当作非常关键的中间资产，但不能把它偷换成：

音视频的唯一真实表达
唯一分发依据
唯一可复用层

假设 3：AI 结构化优先服务“分类与组织”，而不是优先服务“切最小 item”

当前最先值得打磨的 AI 能力，不是把所有内容切碎，而是稳定产出：

scene
level
content_structure
phase1_fit
recommended_channel
recommended_collection_direction

也就是先让系统知道这条内容是什么、该去哪里，而不是先让系统拥有很多小碎片。

假设 4：最小 item 先是可选派生能力，不是默认主承载层

后续如果某些内容线天然适合切片，可以再具体讨论：

哪些类型值得切
切分粒度多细才有价值
切完后服务首页、详情页，还是学习复用

但在当前阶段，不默认所有内容都要先沉淀为最小 item。

6. 这对后续三条工作线分别意味着什么

6.1 对播客样本补充意味着什么

后续播客样本不应只填“节目名、内容方向、难度”这种扁平字段，而应至少分层判断：

原始内容层：节目、单集、时长、更新模式、来源稳定性
转写文本层：是否有现成字幕、是否容易得到高质量转写、文本噪音高不高
AI 结构化层：scene / level / content_structure / phase1_fit
派生 item 层：是否值得切成片段、句子或其他可复用单元

换句话说，播客研究不只是收样本，还要开始判断：
这类内容未来在 Yomiya 里最值得沉淀到哪一层。

6.2 对 YouTube 来源发现意味着什么

后续 YouTube 关键词研究不能只找“能搜到内容”的词，还要找：

更容易得到高质量转写的内容
更容易稳定判断 level 的内容
更容易稳定判断 scene 的内容
更容易形成连续发现路径的内容

这意味着关键词簇不只按平台词义分，还应按“结构化友好程度”分。

例如：

comprehensible japanese / slow japanese 更可能提供稳定可转写、稳定可分级的样本
japanese vlog / daily japanese 更容易提供真实生活场景，但结构化波动可能更大
learn japanese through anime 可能更适合情绪钩子与兴趣入口，但未必最适合作为内容数据库主干

6.3 对数据库方案讨论意味着什么

后续数据库方案应优先回答：

原始内容如何稳定入库
转写文本如何作为中间资产保留
AI 结构化结果如何表达
哪些内容需要进一步派生 item

而不是一上来就讨论：

最小 item 表长什么样
所有内容是否都要切片
首页是否直接分发细粒度片段

更稳的顺序是：

先让原始内容可入库、可结构化、可组织，再讨论细粒度派生能力。

7. 当前不应直接下结论的 3 件事

7.1 不应下结论说“转写文本就是唯一事实层”

这是当前最需要避免的过度简化。

7.2 不应下结论说“最小 item 一定是系统主对象”

这件事当前还没有证据支持，最多只能作为后续派生能力候选。

7.3 不应下结论说“Collection 默认组织 AI 切片”

当前更稳的默认判断仍然是：
Collection 先组织原始内容条目，后续再讨论是否允许混入更细粒度派生单元。

8. 推荐的后续使用方式

如果下一轮继续推进，建议按下面顺序使用这份文档：

先用它确认默认四层资产模型是否成立
再去补播客样本表，看字段模板是否要按四层重组
再去做 YouTube 关键词簇与来源发现，判断哪些来源更适合进入这套模型
最后才进入数据库方案讨论，看数据库和 API 应该优先承接哪几层

9. 一句话总结

当前更稳的内容数据库讨论框架，不是“先转文字再直接沉淀最小 item”，而是先承认 Yomiya 面对的是四层不同资产：原始内容、转写文本、AI 结构化、派生最小 item；其中原始内容是当前母对象，转写文本是重要中间层，AI 结构化是解释层，最小 item 先只作为候选派生层。