播客与视频统一分析标准
播客与视频内容统一分析标准
Section titled “播客与视频内容统一分析标准”文档状态:历史证据 当前替代文档:
../../03-新资源入库流程.md、../../04-内容样本池.md为什么保留:保留统一分析标准全文,便于在需要时追溯样本字段和映射判断的完整推理过程。
文档性质:跨媒介竞品内容统一分析标准
适用范围:播客、YouTube 视频、B 站视频
用途:在外部内容进入 Yomiya 分析与映射阶段前,先用同一套标准判断内容对象、内容方向与承载方式
边界说明:
- 本文档是竞品研究输入层,不替代
20-Execution-Spec/的当前执行规格 - 本轮不纳入小红书
- B 站按与 YouTube 同构的方式处理 最后更新:2026-04-03
1. 本文档要解决的问题
Section titled “1. 本文档要解决的问题”当前竞品研究已经拿到一批播客样本,但后续还要纳入 YouTube 和 B 站视频。
如果继续按“播客一套口径、YouTube 一套口径、B 站一套口径”分别整理,后续会出现三类问题:
- 同样是日语学习内容,却无法共用同一张判断表
- 频道、节目、播放列表、单集之间的层级关系会被混用
- 无法稳定映射到 Yomiya 现有的
Channel / Collection / Series / Tag体系
因此,本文档的目标不是替不同平台各写一套分类法,而是先回答:
播客节目、YouTube 频道、B 站 UP 主、播放列表、播客单集、单条视频,应该如何用同一套对象层级和判断规则分析,并最终映射到 Yomiya?
2. 与 Yomiya 现有体系的关系
Section titled “2. 与 Yomiya 现有体系的关系”本文档必须服从 product/YomiyaContentSystem 当前已有口径,尤其是:
10-Current-System/yomiya-system-source-of-truth.md20-Execution-Spec/yomiya-spec.md
因此,本文档不新造一套并行主模型,而是只补“竞品进入 Yomiya 之前如何统一分析”的规则。
2.1 这份文档在体系里的边界
Section titled “2.1 这份文档在体系里的边界”- 当前服务端已经存在什么对象、字段、关系、唯一性约束,以
10-Current-System/yomiya-system-source-of-truth.md为准 - 本文档只负责“外部样本如何统一分析”,不负责宣布某个目标模型已经是当前系统现实
- 当 YouTube / 播客研究稳定出新的目标理想时,先回写
yomiya-system-source-of-truth.md的Target State与Gap + Actions,再回头更新本文件
2.2 当前明确沿用的核心概念
Section titled “2.2 当前明确沿用的核心概念”Channel:长期一级归属Collection:长期发现容器Series:连续更新容器Tag:描述属性scene:当前主要标签系统之一level:与 JLPT 对齐的难度等级
2.3 当前研究阶段允许引用的系统字段
Section titled “2.3 当前研究阶段允许引用的系统字段”| 项目 | 当前系统现实 | 研究阶段怎么写 | 本文档禁止动作 |
|---|---|---|---|
type | 当前正式字段是 news.type,现实值域来自服务端 migration:webpage / video / audio | 播客样本填 audio,YouTube / B 站样本填 video;若未来出现复合媒介,先写在 notes 或 Gap 表里 | 不再把 format_type 当系统字段;也不把 text / mixed 直接写成“当前系统已支持的正式值” |
level | 当前正式字段是 news.level;公开层稳定映射 N5 / N4 / N3 / N2 / N1 / N1+ | 研究阶段可写展示值,无法判断时统一记 待定 | 不把 待定 或旧写法 不限 写成当前正式后端值 |
scene | 当前不是 news 主表字段,而是 scenes + news_scenes 关系层能力 | 仍优先在 Item 层判断主方向,需要时补 secondary 方向 | 不把 scene 写成 news.scene 这种当前已存在的主表字段 |
source | 当前正式字段 news.source 只表示 news / imports | 研究阶段不用它表示平台来源 | 不把 source 复用成 podcast / youtube / bilibili;平台来源继续使用 platform 与 source_brand |
其中要特别强调:
type继续沿用当前主规格体系,但现实值域必须按当前系统写scene继续作为主内容方向判断能力使用,但现实上仍是关系层,不是主表列- 同一个来源品牌下,不同内容可以有不同
scene level是描述属性,不是归属层platform与source_brand继续留在研究辅助字段,不冒充系统正式字段
补充说明:
- 历史草稿里出现过
format_type - 为避免与当前执行层字段口径漂移,本文档统一只保留
type - 如果历史研究表里仍出现
format_type,一律视为旧列名,进入 Yomiya 前必须映射回type
3. 为什么不能按平台分别分类
Section titled “3. 为什么不能按平台分别分类”平台只是来源,不是最适合做统一分析的主轴。
播客、YouTube、B 站虽然展示形态不同,但它们都天然存在三层对象:
- 谁在持续生产内容
- 这些内容中有哪些稳定内容线
- 用户实际消费的是哪一条内容
如果只按平台分,就很容易把:
- 播客节目名误当成内容方向
- YouTube 频道误当成合集
- B 站合集和单视频混成一层
这会直接破坏后续进入 Yomiya 时的判断:
- 什么该进
Collection - 什么该进
Series - 什么只保留成
Tag
所以,平台只作为研究字段 platform 保留,不作为统一分析的主分类轴。
4. 统一对象层级
Section titled “4. 统一对象层级”本文档统一采用三层外部分析对象。
4.1 Source Brand
Section titled “4.1 Source Brand”定义:持续生产内容的外部来源品牌层。
典型对应:
- 播客:节目名
- YouTube:频道
- B 站:UP 主账号
它回答的问题:
谁在生产这批内容?
规则:
Source Brand不是 Yomiya 内部主承载对象- 它主要服务来源识别、风格判断和后续样本归档
4.2 Series Unit
Section titled “4.2 Series Unit”定义:来源品牌内部的稳定内容线。
典型对应:
- 播客:节目本体或节目中的固定栏目
- YouTube:播放列表、系列栏目、长期重复主题
- B 站:合集、系列栏目、长期重复主题
它回答的问题:
用户到底在追哪一条内容线?
规则:
- 这是跨平台统一分析中最重要的一层
- 后续进入 Yomiya 时,它通常是
Series候选 - 若多个
Series Unit在用户目标上相近,可进一步组织进一个Collection
4.3 Content Item
Section titled “4.3 Content Item”定义:实际消费单元。
典型对应:
- 一集播客
- 一条 YouTube 视频
- 一条 B 站视频
它回答的问题:
用户真正点开、播放、消费的到底是什么?
规则:
Content Item与 Yomiya 的Content Item是直接同构的scene、level、type应优先在这一层判断
5. 统一字段标准
Section titled “5. 统一字段标准”本文档中的字段分三组:研究阶段允许引用的系统字段、竞品分析辅助字段、映射输出字段。
5.1 研究阶段允许引用的系统字段
Section titled “5.1 研究阶段允许引用的系统字段”这些字段的存在性、现实值域、唯一性约束统一以 10-Current-System/yomiya-system-source-of-truth.md 为准。
本节只定义研究阶段如何填写,不在这里单独宣布“系统现在已经有什么”。
| 字段 | 研究阶段写法 | 回写方式 |
|---|---|---|
type | 播客写 audio;YouTube / B 站写 video;如果遇到当前系统不够表达的复合媒介,先写在 notes | 当前正式回写到 news.type |
level | 统一写 N5 / N4 / N3 / N2 / N1 / N1+ / 待定 | 回写时映射到当前 news.level;待定 不直接落库 |
scene | 仍以 Item 层主方向判断为先;如有次方向,先写进 notes 或后续补 secondary 方案 | 当前正式回写到 scenes + news_scenes |
source | 不在研究表里承担平台字段职责 | 当前系统侧继续只保留 news / imports 语义 |
补充规则:
scene继续作为主内容方向判断能力使用- 同一个
Source Brand下,不同Item可以归入不同scene level是描述属性,不是归属层platform与source_brand继续留在研究辅助字段,不挤进系统正式字段表
5.2 原始内容层字段
Section titled “5.2 原始内容层字段”这些字段用于记录外部内容的母对象与基本元信息,回答“用户真正消费的原始内容是什么”。
| 字段 | 说明 |
|---|---|
platform | podcast / youtube / bilibili |
source_brand | 节目名、频道名或 UP 主名 |
series_unit | 固定栏目、播放列表、合集、系列主题 |
sample_level | brand / series / item |
sample_name | 当前分析对象的名称 |
type | 当前统一写 audio / video / webpage |
update_pattern | ongoing / seasonal / mixed / unclear |
speaker_structure | solo / duo / multi / mixed |
补充规则:
sample_level=brand时,允许series_unit为空sample_level=item时,sample_name应优先写单集 / 单视频标题,而不是品牌名复写- 这层先回答“原始对象是谁”,不抢着回答“值不值得切成最小 item”
5.3 转写文本层字段
Section titled “5.3 转写文本层字段”这些字段用于记录文本化中间层的可获得性与质量预期,回答“后续 AI 能否稳定拿到文本来理解内容”。
| 字段 | 说明 |
|---|---|
transcript_availability | native / generated / unavailable / unknown,表示原平台是否天然提供可用文本 |
transcript_source | caption / subtitle / asr / article / mixed / unknown |
transcript_quality_expectation | high / medium / low / unknown,表示转写质量的研究判断 |
补充规则:
- 图文样本通常可直接写
transcript_availability=native - 音视频样本即便可转写,也不等于文本层就是唯一事实层
- 这层重点判断“是否适合后续结构化”,不是提前假设“有文本就一定适合沉淀”
5.4 AI 结构化层字段
Section titled “5.4 AI 结构化层字段”这些字段用于记录 AI 或研究判断产出的解释性结果,回答“这条内容更像什么,适合放到哪里”。
| 字段 | 说明 |
|---|---|
level | N5 / N4 / N3 / N2 / N1 / N1+ / 待定 |
scene | 主方向判断,仍优先按 Item 层填写 |
content_structure | explanatory / conversation / commentary / news / themed-learning / mixed |
cross_media_expandability | 是否适合未来与其他媒介共用一个上层主题 |
phase1_fit | 是否适合进入 Yomiya Phase 1 主叙事或补充线 |
补充规则:
scene与level继续作为描述层判断,不承担承载职责phase1_fit不是“内容好不好”,而是“是否适合当前阶段主链路”- 这一层优先服务分类、组织和分发判断,不优先服务内容切碎
5.5 映射输出与派生 item 判断字段
Section titled “5.5 映射输出与派生 item 判断字段”这些字段用于把外部样本落回 Yomiya 内容系统,并记录是否值得进一步派生更细粒度 item。
| 字段 | 说明 |
|---|---|
recommended_channel | 更适合归入哪个一级栏目 |
recommended_collection_direction | 更适合进入哪种合集方向 |
series_candidate | 是否应视作 Series 候选 |
item_derivation_value | high / medium / low / unknown,表示是否值得进一步切出更细粒度单元 |
item_derivation_form | sentence / segment / quote-card / mixed / none / unknown,表示更可能的派生形态 |
tag_suggestions | 建议补充的描述性标签 |
notes | 适合 / 不适合原因,或待补信息 |
补充规则:
item_derivation_value只表示“是否值得进一步切分”,不等于“现在必须建最小 item 主模型”item_derivation_form用于帮助后续判断细粒度沉淀方向,不是当前系统正式字段- 当这层判断长期稳定后,再回写
yomiya-system-source-of-truth.md讨论是否需要正式承载
6. 各平台映射规则
Section titled “6. 各平台映射规则”6.1 播客映射规则
Section titled “6.1 播客映射规则”- 播客节目本体优先落到
Source Brand - 若节目本体天然就是一条连续更新线,节目本体也可同时充当
Series Unit - 播客单集统一作为
Content Item - 单集的
scene、level、type=audio仍需单独判断
这意味着:
- 节目本体可以是
Series候选 - 单集仍可进入不同
Collection
6.2 YouTube 映射规则
Section titled “6.2 YouTube 映射规则”- 频道先落到
Source Brand - 播放列表、固定栏目、系列主题优先落到
Series Unit - 单视频统一作为
Content Item scene、level、type=video在Item层判断
6.3 B 站映射规则
Section titled “6.3 B 站映射规则”- UP 主账号先落到
Source Brand - 合集、固定栏目、系列主题优先落到
Series Unit - 单视频统一作为
Content Item - B 站不单独再造一套标准,按与 YouTube 同构处理
7. 一个频道下面有很多合集时,怎么划分
Section titled “7. 一个频道下面有很多合集时,怎么划分”这是后续视频调研时最容易混乱的问题。
当前统一规则如下:
规则 1:频道不是默认分类单元
Section titled “规则 1:频道不是默认分类单元”频道只说明“谁在生产内容”,不直接说明“这批内容该如何在 Yomiya 被组织”。
只有在频道内容高度单一、几乎所有内容都围绕同一稳定主题时,才允许把频道近似视作一个大的 Series Unit。
规则 2:播放列表 / 合集优先于频道
Section titled “规则 2:播放列表 / 合集优先于频道”只要频道下已经存在清晰的播放列表、合集或固定栏目,就优先按这些 Series Unit 拆,不按频道整体分析。
规则 3:单视频保留独立判断权
Section titled “规则 3:单视频保留独立判断权”即使视频属于某个播放列表,它仍然可以因为具体主题不同而落到不同 scene,并进入不同 Collection。
换句话说:
Series Unit解决连续更新关系scene解决单条内容主方向Collection解决前台长期发现组织方式
8. Yomiya 承载判断规则
Section titled “8. Yomiya 承载判断规则”8.1 什么适合作为 Series
Section titled “8.1 什么适合作为 Series”满足以下条件时,优先视作 Series 候选:
- 有明确连续更新关系
- 用户会期待“下一期”
- 内容之间的核心关系是时间顺序或持续连载,而不是仅仅主题相似
典型情况:
- 固定播客节目
- 固定主讲人栏目
- 连载视频
- 固定更新的播放列表
8.2 什么适合作为 Collection
Section titled “8.2 什么适合作为 Collection”满足以下条件时,优先视作 Collection 候选方向:
- 能围绕长期成立的主题或用户目标组织内容
- 主要价值是降低选择成本,而不是强调更新时间顺序
- 跨来源、跨系列、跨单条内容组合后仍然成立
典型情况:
- 慢速可理解输入
- 真实生活会话
- 去日本旅行必备
- JLPT 听力冲刺
- 动漫日语精听
8.3 什么只做 Tag
Section titled “8.3 什么只做 Tag”以下信息只负责描述,不承担承载职责:
scenelevelspeech_speedspeaker_counttranscript- 其他运营补充属性
8.4 一个来源品牌不应被直接照搬为前台承载对象
Section titled “8.4 一个来源品牌不应被直接照搬为前台承载对象”默认情况下:
Source Brand保留为来源信息Series Unit才是更常见的Series候选Collection应围绕用户目标和长期发现逻辑组织
也就是说,不能因为一个节目或频道有名,就直接把它等同于一个长期 Collection。
9. 当前样本缺口与后续调研要求
Section titled “9. 当前样本缺口与后续调研要求”9.1 当前缺口
Section titled “9.1 当前缺口”当前样本覆盖明显偏向播客,视频样本尚未系统补齐。
这意味着:
- 当前问题是样本覆盖不足
- 不是统一标准本身缺失
9.2 下一轮优先补哪些样本
Section titled “9.2 下一轮优先补哪些样本”先补 Series Unit 和 Content Item 样本,不急着先堆大量品牌层条目。
对 YouTube / B 站,建议优先补:
- 低门槛可理解输入
- 真实会话 / 生活口语
- 旅行 / 动漫 / 文化方向
- 考试专项内容
9.3 调研输出顺序建议
Section titled “9.3 调研输出顺序建议”- 先按本标准建统一样本清单
- 先迁入现有播客样本
- 再补 YouTube 样本
- 最后补 B 站样本
这样做的好处是:
- 标准先成立
- 样本后扩充
- 不会让播客研究变成孤岛
10. 一句话总结
Section titled “10. 一句话总结”播客、YouTube、B 站不再按平台分别分类,而统一按 Source Brand / Series Unit / Content Item 三层分析;scene 继续作为 Item 级主内容方向字段,level 继续沿用 JLPT 等级;最终再映射到 Yomiya 的 Channel / Collection / Series / Tag。