内容资产分层
Yomiya 内容资产分层与沉淀判断
Section titled “Yomiya 内容资产分层与沉淀判断”文档状态:历史证据 当前替代文档:
../../02-当前系统现实.md为什么保留:保留内容资产分层推理过程,便于在需要时追溯“为什么这样理解 item 与资产层级”。
文档性质:内容数据库方案研究层判断文档
用途:沉淀“原始内容 / 转写文本 / AI 结构化 / 最小 item”之间的关系,避免后续只记结论、不知道为什么
适用范围:播客样本补充、YouTube 来源发现、内容数据库方案收敛、Collection 承载边界讨论
边界说明:
- 本文档用于保存研究层 reasoning,不直接宣布当前系统已经落库什么
- 当前系统现实仍以
../../02-当前系统现实.md为准 - 当前执行边界仍以
../../01-当前目标与范围.md为准 最后更新:2026-04-03
1. 这份文档要解决的问题
Section titled “1. 这份文档要解决的问题”当前继续讨论内容数据库方案时,最容易提前拍死一条看起来顺手、但其实风险很大的路径:
外部内容 -> 转文字 -> AI 沉淀最小 item -> 系统
这条路径的问题不是完全错误,而是太容易把几层本来不同的资产压成一层,导致后续讨论里不断混淆:
- 原始内容是不是还重要
- 转写文本是不是唯一事实层
- AI 结构化结果是不是可以直接当系统主对象
Collection到底应该组织原始内容,还是组织 AI 切出来的 item
因此,本文件的目标不是立刻定义数据库表,而是先回答:
Yomiya 到底在沉淀哪几层资产,这几层之间应该如何约束,为什么当前不能把它们混成一层。
2. 当前建议采用的默认判断
Section titled “2. 当前建议采用的默认判断”当前更稳的默认框架不是“文本中心”,而是“四层资产模型”:
原始内容层转写文本层AI 结构化层派生最小 item 层
一句话冻结:
原始内容是母对象,转写文本是重要中间层,AI 结构化是解释层,最小 item 先只作为候选派生层,不先升格为当前主对象。
3. 为什么不直接采用“文本中心”方案
Section titled “3. 为什么不直接采用“文本中心”方案”3.1 文本不是音视频的完整事实层
Section titled “3.1 文本不是音视频的完整事实层”如果把“转写文本”直接当成唯一事实层,会过早丢掉音视频原本自带的关键信号:
- 语速
- 停顿
- 说话人结构
- 对话密度
- 情绪与语气
- 镜头切换与剪辑节奏
这些信号虽然不一定都要现在结构化,但它们会直接影响:
levelcontent_structurescene- 内容是否适合进入 Phase 1 主路径
所以,转写文本非常重要,但它不能替代原始媒体与原始元信息。
3.2 当前系统现实也不是“文本主对象”
Section titled “3.2 当前系统现实也不是“文本主对象””从当前系统现实看,主内容对象仍然是 news,而不是句子、片段或 AI 切分后的细粒度单元。
也就是说,哪怕后续会把音视频进一步切分,当前最稳的承载起点仍然是:
- 一条图文
- 一条视频
- 一条音频
而不是默认从“句子”或“最小知识点”开始。
3.3 过早把最小 item 定成主对象,会把问题复杂化
Section titled “3.3 过早把最小 item 定成主对象,会把问题复杂化”如果现在先把“最小 item”定成数据库主轴,会立刻带出一连串还没有被证明成立的问题:
- 最小 item 到底是句子、片段、知识点,还是摘要卡片
- 不同媒介是否应该共用同一种最小 item
Collection组织的到底是原始内容,还是二级 item- 首页展示的主要消费单元到底是什么
这些问题当前都还没收敛。
因此,先把“最小 item”定义成候选派生层,比直接把它升格成主对象更稳。
4. 四层资产模型
Section titled “4. 四层资产模型”4.1 原始内容层
Section titled “4.1 原始内容层”定义:用户在外部平台真实消费的原始单元。
典型对象:
- 一篇图文
- 一条 YouTube 视频
- 一集播客
当前地位:
- 它是当前唯一必须稳定存在的母对象
- 也是当前最接近
news的现实层 - 后续
Collection与首页分发,默认应先围绕这一层讨论
它回答的问题:
- 用户真正点开的是什么
- 系统稳定入库的基本单元是什么
- 哪个对象天然适合承接来源、发布时间、时长、封面、原始 URL 等元信息
4.2 转写文本层
Section titled “4.2 转写文本层”定义:从图文正文、字幕、ASR、OCR 等方式得到的文本化中间层。
当前地位:
- 它是非常重要的中间层
- 但不是唯一事实层
- 它服务于后续分类、理解、检索、切分和复用
它回答的问题:
- AI 能拿什么做结构化判断
- 内容能否支持更细粒度理解与切分
- 检索、摘要、片段提取从哪里开始
当前判断:
- 图文天生已有较强文本层
- 视频和音频的文本层质量会受字幕质量、ASR 质量、说话方式影响
- 因此“是否容易得到高质量转写”本身就是内容源研究的重要维度
4.3 AI 结构化层
Section titled “4.3 AI 结构化层”定义:基于原始内容与文本层,产出的解释性结构化判断结果。
典型输出:
scenelevelcontent_structurephase1_fitrecommended_channelrecommended_collection_direction
当前地位:
- 它是解释层,不是原始事实层
- 它的作用是让系统知道“这条内容更像什么、适合放哪、值不值得分发”
它回答的问题:
- 这条内容属于什么方向
- 它适合首页主路径还是补充层
- 它更像
Collection候选,还是Series候选
4.4 派生最小 item 层
Section titled “4.4 派生最小 item 层”定义:从原始内容和文本层进一步拆出来的更小单元。
可能形态:
- 句子
- 片段
- 片段主题
- 金句
- 可单独复用的学习卡片
当前地位:
- 先只把它看作候选派生层
- 当前不默认它就是主对象
- 也不默认所有内容都必须切到这一层
它回答的问题:
- 哪些内容值得进一步切分
- 切出来的更小单元服务什么场景
- 是否有必要让细粒度单元参与推荐、合集组织或学习复用
5. 当前应先冻结的 4 条工作假设
Section titled “5. 当前应先冻结的 4 条工作假设”假设 1:原始内容是当前唯一必须稳定存在的母对象
Section titled “假设 1:原始内容是当前唯一必须稳定存在的母对象”后续数据库方案、API 方案、后台能力,都应先保证原始内容层可以稳定承接:
- 图文
- 视频
- 音频
- 基础标签与分发判断
在这件事没立住之前,不要把主要精力先切到细粒度 item。
假设 2:转写文本是重要中间层,但不是唯一事实层
Section titled “假设 2:转写文本是重要中间层,但不是唯一事实层”后续研究和数据库讨论里,可以把文本层当作非常关键的中间资产,但不能把它偷换成:
- 音视频的唯一真实表达
- 唯一分发依据
- 唯一可复用层
假设 3:AI 结构化优先服务“分类与组织”,而不是优先服务“切最小 item”
Section titled “假设 3:AI 结构化优先服务“分类与组织”,而不是优先服务“切最小 item””当前最先值得打磨的 AI 能力,不是把所有内容切碎,而是稳定产出:
scenelevelcontent_structurephase1_fitrecommended_channelrecommended_collection_direction
也就是先让系统知道这条内容是什么、该去哪里,而不是先让系统拥有很多小碎片。
假设 4:最小 item 先是可选派生能力,不是默认主承载层
Section titled “假设 4:最小 item 先是可选派生能力,不是默认主承载层”后续如果某些内容线天然适合切片,可以再具体讨论:
- 哪些类型值得切
- 切分粒度多细才有价值
- 切完后服务首页、详情页,还是学习复用
但在当前阶段,不默认所有内容都要先沉淀为最小 item。
6. 这对后续三条工作线分别意味着什么
Section titled “6. 这对后续三条工作线分别意味着什么”6.1 对播客样本补充意味着什么
Section titled “6.1 对播客样本补充意味着什么”后续播客样本不应只填“节目名、内容方向、难度”这种扁平字段,而应至少分层判断:
- 原始内容层:节目、单集、时长、更新模式、来源稳定性
- 转写文本层:是否有现成字幕、是否容易得到高质量转写、文本噪音高不高
- AI 结构化层:
scene / level / content_structure / phase1_fit - 派生 item 层:是否值得切成片段、句子或其他可复用单元
换句话说,播客研究不只是收样本,还要开始判断:
这类内容未来在 Yomiya 里最值得沉淀到哪一层。
6.2 对 YouTube 来源发现意味着什么
Section titled “6.2 对 YouTube 来源发现意味着什么”后续 YouTube 关键词研究不能只找“能搜到内容”的词,还要找:
- 更容易得到高质量转写的内容
- 更容易稳定判断
level的内容 - 更容易稳定判断
scene的内容 - 更容易形成连续发现路径的内容
这意味着关键词簇不只按平台词义分,还应按“结构化友好程度”分。
例如:
-
comprehensible japanese / slow japanese更可能提供稳定可转写、稳定可分级的样本 -
japanese vlog / daily japanese更容易提供真实生活场景,但结构化波动可能更大 -
learn japanese through anime可能更适合情绪钩子与兴趣入口,但未必最适合作为内容数据库主干
6.3 对数据库方案讨论意味着什么
Section titled “6.3 对数据库方案讨论意味着什么”后续数据库方案应优先回答:
- 原始内容如何稳定入库
- 转写文本如何作为中间资产保留
- AI 结构化结果如何表达
- 哪些内容需要进一步派生 item
而不是一上来就讨论:
- 最小 item 表长什么样
- 所有内容是否都要切片
- 首页是否直接分发细粒度片段
更稳的顺序是:
先让原始内容可入库、可结构化、可组织,再讨论细粒度派生能力。
7. 当前不应直接下结论的 3 件事
Section titled “7. 当前不应直接下结论的 3 件事”7.1 不应下结论说“转写文本就是唯一事实层”
Section titled “7.1 不应下结论说“转写文本就是唯一事实层””这是当前最需要避免的过度简化。
7.2 不应下结论说“最小 item 一定是系统主对象”
Section titled “7.2 不应下结论说“最小 item 一定是系统主对象””这件事当前还没有证据支持,最多只能作为后续派生能力候选。
7.3 不应下结论说“Collection 默认组织 AI 切片”
Section titled “7.3 不应下结论说“Collection 默认组织 AI 切片””当前更稳的默认判断仍然是:
Collection 先组织原始内容条目,后续再讨论是否允许混入更细粒度派生单元。
8. 推荐的后续使用方式
Section titled “8. 推荐的后续使用方式”如果下一轮继续推进,建议按下面顺序使用这份文档:
- 先用它确认默认四层资产模型是否成立
- 再去补播客样本表,看字段模板是否要按四层重组
- 再去做 YouTube 关键词簇与来源发现,判断哪些来源更适合进入这套模型
- 最后才进入数据库方案讨论,看数据库和 API 应该优先承接哪几层
9. 一句话总结
Section titled “9. 一句话总结”当前更稳的内容数据库讨论框架,不是“先转文字再直接沉淀最小 item”,而是先承认 Yomiya 面对的是四层不同资产:原始内容、转写文本、AI 结构化、派生最小 item;其中原始内容是当前母对象,转写文本是重要中间层,AI 结构化是解释层,最小 item 先只作为候选派生层。