播客与视频统一分析标准

播客与视频内容统一分析标准

文档状态：历史证据当前替代文档：../../03-新资源入库流程.md、../../04-内容样本池.md 为什么保留：保留统一分析标准全文，便于在需要时追溯样本字段和映射判断的完整推理过程。

文档性质：跨媒介竞品内容统一分析标准
适用范围：播客、YouTube 视频、B 站视频
用途：在外部内容进入 Yomiya 分析与映射阶段前，先用同一套标准判断内容对象、内容方向与承载方式
边界说明：

本文档是竞品研究输入层，不替代 20-Execution-Spec/ 的当前执行规格
本轮不纳入小红书
B 站按与 YouTube 同构的方式处理 最后更新：2026-04-03

1. 本文档要解决的问题

当前竞品研究已经拿到一批播客样本，但后续还要纳入 YouTube 和 B 站视频。

如果继续按“播客一套口径、YouTube 一套口径、B 站一套口径”分别整理，后续会出现三类问题：

同样是日语学习内容，却无法共用同一张判断表
频道、节目、播放列表、单集之间的层级关系会被混用
无法稳定映射到 Yomiya 现有的 Channel / Collection / Series / Tag 体系

因此，本文档的目标不是替不同平台各写一套分类法，而是先回答：

播客节目、YouTube 频道、B 站 UP 主、播放列表、播客单集、单条视频，应该如何用同一套对象层级和判断规则分析，并最终映射到 Yomiya？

2. 与 Yomiya 现有体系的关系

本文档必须服从 product/YomiyaContentSystem 当前已有口径，尤其是：

10-Current-System/yomiya-system-source-of-truth.md
20-Execution-Spec/yomiya-spec.md

因此，本文档不新造一套并行主模型，而是只补“竞品进入 Yomiya 之前如何统一分析”的规则。

2.1 这份文档在体系里的边界

当前服务端已经存在什么对象、字段、关系、唯一性约束，以 10-Current-System/yomiya-system-source-of-truth.md 为准
本文档只负责“外部样本如何统一分析”，不负责宣布某个目标模型已经是当前系统现实
当 YouTube / 播客研究稳定出新的目标理想时，先回写 yomiya-system-source-of-truth.md 的 Target State 与 Gap + Actions，再回头更新本文件

2.2 当前明确沿用的核心概念

Channel：长期一级归属
Collection：长期发现容器
Series：连续更新容器
Tag：描述属性
scene：当前主要标签系统之一
level：与 JLPT 对齐的难度等级

2.3 当前研究阶段允许引用的系统字段

项目	当前系统现实	研究阶段怎么写	本文档禁止动作
`type`	当前正式字段是 `news.type`，现实值域来自服务端 migration：`webpage / video / audio`	播客样本填 `audio`，YouTube / B 站样本填 `video`；若未来出现复合媒介，先写在 `notes` 或 Gap 表里	不再把 `format_type` 当系统字段；也不把 `text / mixed` 直接写成“当前系统已支持的正式值”
`level`	当前正式字段是 `news.level`；公开层稳定映射 `N5 / N4 / N3 / N2 / N1 / N1+`	研究阶段可写展示值，无法判断时统一记 `待定`	不把 `待定` 或旧写法 `不限` 写成当前正式后端值
`scene`	当前不是 `news` 主表字段，而是 `scenes + news_scenes` 关系层能力	仍优先在 `Item` 层判断主方向，需要时补 secondary 方向	不把 `scene` 写成 `news.scene` 这种当前已存在的主表字段
`source`	当前正式字段 `news.source` 只表示 `news / imports`	研究阶段不用它表示平台来源	不把 `source` 复用成 `podcast / youtube / bilibili`；平台来源继续使用 `platform` 与 `source_brand`

其中要特别强调：

type 继续沿用当前主规格体系，但现实值域必须按当前系统写
scene 继续作为主内容方向判断能力使用，但现实上仍是关系层，不是主表列
同一个来源品牌下，不同内容可以有不同 scene
level 是描述属性，不是归属层
platform 与 source_brand 继续留在研究辅助字段，不冒充系统正式字段

补充说明：

历史草稿里出现过 format_type
为避免与当前执行层字段口径漂移，本文档统一只保留 type
如果历史研究表里仍出现 format_type，一律视为旧列名，进入 Yomiya 前必须映射回 type

3. 为什么不能按平台分别分类

平台只是来源，不是最适合做统一分析的主轴。

播客、YouTube、B 站虽然展示形态不同，但它们都天然存在三层对象：

谁在持续生产内容
这些内容中有哪些稳定内容线
用户实际消费的是哪一条内容

如果只按平台分，就很容易把：

播客节目名误当成内容方向
YouTube 频道误当成合集
B 站合集和单视频混成一层

这会直接破坏后续进入 Yomiya 时的判断：

什么该进 Collection
什么该进 Series
什么只保留成 Tag

所以，平台只作为研究字段 platform 保留，不作为统一分析的主分类轴。

4. 统一对象层级

本文档统一采用三层外部分析对象。

4.1 Source Brand

定义：持续生产内容的外部来源品牌层。
典型对应：

播客：节目名
YouTube：频道
B 站：UP 主账号

它回答的问题：

谁在生产这批内容？

规则：

Source Brand 不是 Yomiya 内部主承载对象
它主要服务来源识别、风格判断和后续样本归档

4.2 Series Unit

定义：来源品牌内部的稳定内容线。
典型对应：

播客：节目本体或节目中的固定栏目
YouTube：播放列表、系列栏目、长期重复主题
B 站：合集、系列栏目、长期重复主题

它回答的问题：

用户到底在追哪一条内容线？

规则：

这是跨平台统一分析中最重要的一层
后续进入 Yomiya 时，它通常是 Series 候选
若多个 Series Unit 在用户目标上相近，可进一步组织进一个 Collection

4.3 Content Item

定义：实际消费单元。
典型对应：

一集播客
一条 YouTube 视频
一条 B 站视频

它回答的问题：

用户真正点开、播放、消费的到底是什么？

规则：

Content Item 与 Yomiya 的 Content Item 是直接同构的
scene、level、type 应优先在这一层判断

5. 统一字段标准

本文档中的字段分三组：研究阶段允许引用的系统字段、竞品分析辅助字段、映射输出字段。

5.1 研究阶段允许引用的系统字段

这些字段的存在性、现实值域、唯一性约束统一以 10-Current-System/yomiya-system-source-of-truth.md 为准。本节只定义研究阶段如何填写，不在这里单独宣布“系统现在已经有什么”。

字段	研究阶段写法	回写方式
`type`	播客写 `audio`；YouTube / B 站写 `video`；如果遇到当前系统不够表达的复合媒介，先写在 `notes`	当前正式回写到 `news.type`
`level`	统一写 `N5 / N4 / N3 / N2 / N1 / N1+ / 待定`	回写时映射到当前 `news.level`；`待定` 不直接落库
`scene`	仍以 `Item` 层主方向判断为先；如有次方向，先写进 `notes` 或后续补 secondary 方案	当前正式回写到 `scenes + news_scenes`
`source`	不在研究表里承担平台字段职责	当前系统侧继续只保留 `news / imports` 语义

补充规则：

scene 继续作为主内容方向判断能力使用
同一个 Source Brand 下，不同 Item 可以归入不同 scene
level 是描述属性，不是归属层
platform 与 source_brand 继续留在研究辅助字段，不挤进系统正式字段表

5.2 原始内容层字段

这些字段用于记录外部内容的母对象与基本元信息，回答“用户真正消费的原始内容是什么”。

字段	说明
`platform`	`podcast / youtube / bilibili`
`source_brand`	节目名、频道名或 UP 主名
`series_unit`	固定栏目、播放列表、合集、系列主题
`sample_level`	`brand / series / item`
`sample_name`	当前分析对象的名称
`type`	当前统一写 `audio / video / webpage`
`update_pattern`	`ongoing / seasonal / mixed / unclear`
`speaker_structure`	`solo / duo / multi / mixed`

补充规则：

sample_level=brand 时，允许 series_unit 为空
sample_level=item 时，sample_name 应优先写单集 / 单视频标题，而不是品牌名复写
这层先回答“原始对象是谁”，不抢着回答“值不值得切成最小 item”

5.3 转写文本层字段

这些字段用于记录文本化中间层的可获得性与质量预期，回答“后续 AI 能否稳定拿到文本来理解内容”。

字段	说明
`transcript_availability`	`native / generated / unavailable / unknown`，表示原平台是否天然提供可用文本
`transcript_source`	`caption / subtitle / asr / article / mixed / unknown`
`transcript_quality_expectation`	`high / medium / low / unknown`，表示转写质量的研究判断

补充规则：

图文样本通常可直接写 transcript_availability=native
音视频样本即便可转写，也不等于文本层就是唯一事实层
这层重点判断“是否适合后续结构化”，不是提前假设“有文本就一定适合沉淀”

5.4 AI 结构化层字段

这些字段用于记录 AI 或研究判断产出的解释性结果，回答“这条内容更像什么，适合放到哪里”。

字段	说明
`level`	`N5 / N4 / N3 / N2 / N1 / N1+ / 待定`
`scene`	主方向判断，仍优先按 `Item` 层填写
`content_structure`	`explanatory / conversation / commentary / news / themed-learning / mixed`
`cross_media_expandability`	是否适合未来与其他媒介共用一个上层主题
`phase1_fit`	是否适合进入 Yomiya Phase 1 主叙事或补充线

补充规则：

scene 与 level 继续作为描述层判断，不承担承载职责
phase1_fit 不是“内容好不好”，而是“是否适合当前阶段主链路”
这一层优先服务分类、组织和分发判断，不优先服务内容切碎

5.5 映射输出与派生 item 判断字段

这些字段用于把外部样本落回 Yomiya 内容系统，并记录是否值得进一步派生更细粒度 item。

字段	说明
`recommended_channel`	更适合归入哪个一级栏目
`recommended_collection_direction`	更适合进入哪种合集方向
`series_candidate`	是否应视作 `Series` 候选
`item_derivation_value`	`high / medium / low / unknown`，表示是否值得进一步切出更细粒度单元
`item_derivation_form`	`sentence / segment / quote-card / mixed / none / unknown`，表示更可能的派生形态
`tag_suggestions`	建议补充的描述性标签
`notes`	适合 / 不适合原因，或待补信息

补充规则：

item_derivation_value 只表示“是否值得进一步切分”，不等于“现在必须建最小 item 主模型”
item_derivation_form 用于帮助后续判断细粒度沉淀方向，不是当前系统正式字段
当这层判断长期稳定后，再回写 yomiya-system-source-of-truth.md 讨论是否需要正式承载

6. 各平台映射规则

6.1 播客映射规则

播客节目本体优先落到 Source Brand
若节目本体天然就是一条连续更新线，节目本体也可同时充当 Series Unit
播客单集统一作为 Content Item
单集的 scene、level、type=audio 仍需单独判断

这意味着：

节目本体可以是 Series 候选
单集仍可进入不同 Collection

6.2 YouTube 映射规则

频道先落到 Source Brand
播放列表、固定栏目、系列主题优先落到 Series Unit
单视频统一作为 Content Item
scene、level、type=video 在 Item 层判断

6.3 B 站映射规则

UP 主账号先落到 Source Brand
合集、固定栏目、系列主题优先落到 Series Unit
单视频统一作为 Content Item
B 站不单独再造一套标准，按与 YouTube 同构处理

7. 一个频道下面有很多合集时，怎么划分

这是后续视频调研时最容易混乱的问题。

当前统一规则如下：

规则 1：频道不是默认分类单元

频道只说明“谁在生产内容”，不直接说明“这批内容该如何在 Yomiya 被组织”。

只有在频道内容高度单一、几乎所有内容都围绕同一稳定主题时，才允许把频道近似视作一个大的 Series Unit。

规则 2：播放列表 / 合集优先于频道

只要频道下已经存在清晰的播放列表、合集或固定栏目，就优先按这些 Series Unit 拆，不按频道整体分析。

规则 3：单视频保留独立判断权

即使视频属于某个播放列表，它仍然可以因为具体主题不同而落到不同 scene，并进入不同 Collection。

换句话说：

Series Unit 解决连续更新关系
scene 解决单条内容主方向
Collection 解决前台长期发现组织方式

8. Yomiya 承载判断规则

8.1 什么适合作为 `Series`

满足以下条件时，优先视作 Series 候选：

有明确连续更新关系
用户会期待“下一期”
内容之间的核心关系是时间顺序或持续连载，而不是仅仅主题相似

典型情况：

固定播客节目
固定主讲人栏目
连载视频
固定更新的播放列表

8.2 什么适合作为 `Collection`

满足以下条件时，优先视作 Collection 候选方向：

能围绕长期成立的主题或用户目标组织内容
主要价值是降低选择成本，而不是强调更新时间顺序
跨来源、跨系列、跨单条内容组合后仍然成立

典型情况：

慢速可理解输入
真实生活会话
去日本旅行必备
JLPT 听力冲刺
动漫日语精听

8.3 什么只做 `Tag`

以下信息只负责描述，不承担承载职责：

scene
level
speech_speed
speaker_count
transcript
其他运营补充属性

8.4 一个来源品牌不应被直接照搬为前台承载对象

默认情况下：

Source Brand 保留为来源信息
Series Unit 才是更常见的 Series 候选
Collection 应围绕用户目标和长期发现逻辑组织

也就是说，不能因为一个节目或频道有名，就直接把它等同于一个长期 Collection。

9. 当前样本缺口与后续调研要求

9.1 当前缺口

当前样本覆盖明显偏向播客，视频样本尚未系统补齐。

这意味着：

当前问题是样本覆盖不足
不是统一标准本身缺失

9.2 下一轮优先补哪些样本

先补 Series Unit 和 Content Item 样本，不急着先堆大量品牌层条目。

对 YouTube / B 站，建议优先补：

低门槛可理解输入
真实会话 / 生活口语
旅行 / 动漫 / 文化方向
考试专项内容

9.3 调研输出顺序建议

先按本标准建统一样本清单
先迁入现有播客样本
再补 YouTube 样本
最后补 B 站样本

这样做的好处是：

标准先成立
样本后扩充
不会让播客研究变成孤岛

10. 一句话总结

播客、YouTube、B 站不再按平台分别分类，而统一按 Source Brand / Series Unit / Content Item 三层分析；scene 继续作为 Item 级主内容方向字段，level 继续沿用 JLPT 等级；最终再映射到 Yomiya 的 Channel / Collection / Series / Tag。

播客与视频统一分析标准

播客与视频内容统一分析标准

1. 本文档要解决的问题

2. 与 Yomiya 现有体系的关系

2.1 这份文档在体系里的边界

2.2 当前明确沿用的核心概念

2.3 当前研究阶段允许引用的系统字段

3. 为什么不能按平台分别分类

4. 统一对象层级

4.1 Source Brand

4.2 Series Unit

4.3 Content Item

5. 统一字段标准

5.1 研究阶段允许引用的系统字段

5.2 原始内容层字段

5.3 转写文本层字段

5.4 AI 结构化层字段

5.5 映射输出与派生 item 判断字段

6. 各平台映射规则

6.1 播客映射规则

6.2 YouTube 映射规则

6.3 B 站映射规则

7. 一个频道下面有很多合集时，怎么划分

规则 1：频道不是默认分类单元

规则 2：播放列表 / 合集优先于频道

规则 3：单视频保留独立判断权

8. Yomiya 承载判断规则

8.1 什么适合作为 Series

8.2 什么适合作为 Collection

8.3 什么只做 Tag

8.4 一个来源品牌不应被直接照搬为前台承载对象

9. 当前样本缺口与后续调研要求

9.1 当前缺口

9.2 下一轮优先补哪些样本

9.3 调研输出顺序建议

10. 一句话总结

8.1 什么适合作为 `Series`

8.2 什么适合作为 `Collection`

8.3 什么只做 `Tag`