跳转到内容

播客与视频统一分析标准

文档状态:历史证据 当前替代文档:../../03-新资源入库流程.md../../04-内容样本池.md 为什么保留:保留统一分析标准全文,便于在需要时追溯样本字段和映射判断的完整推理过程。

文档性质:跨媒介竞品内容统一分析标准
适用范围:播客、YouTube 视频、B 站视频
用途:在外部内容进入 Yomiya 分析与映射阶段前,先用同一套标准判断内容对象、内容方向与承载方式
边界说明

  • 本文档是竞品研究输入层,不替代 20-Execution-Spec/ 的当前执行规格
  • 本轮不纳入小红书
  • B 站按与 YouTube 同构的方式处理 最后更新:2026-04-03

当前竞品研究已经拿到一批播客样本,但后续还要纳入 YouTube 和 B 站视频。

如果继续按“播客一套口径、YouTube 一套口径、B 站一套口径”分别整理,后续会出现三类问题:

  1. 同样是日语学习内容,却无法共用同一张判断表
  2. 频道、节目、播放列表、单集之间的层级关系会被混用
  3. 无法稳定映射到 Yomiya 现有的 Channel / Collection / Series / Tag 体系

因此,本文档的目标不是替不同平台各写一套分类法,而是先回答:

播客节目、YouTube 频道、B 站 UP 主、播放列表、播客单集、单条视频,应该如何用同一套对象层级和判断规则分析,并最终映射到 Yomiya?


本文档必须服从 product/YomiyaContentSystem 当前已有口径,尤其是:

  • 10-Current-System/yomiya-system-source-of-truth.md
  • 20-Execution-Spec/yomiya-spec.md

因此,本文档不新造一套并行主模型,而是只补“竞品进入 Yomiya 之前如何统一分析”的规则。

  • 当前服务端已经存在什么对象、字段、关系、唯一性约束,以 10-Current-System/yomiya-system-source-of-truth.md 为准
  • 本文档只负责“外部样本如何统一分析”,不负责宣布某个目标模型已经是当前系统现实
  • 当 YouTube / 播客研究稳定出新的目标理想时,先回写 yomiya-system-source-of-truth.mdTarget StateGap + Actions,再回头更新本文件
  • Channel:长期一级归属
  • Collection:长期发现容器
  • Series:连续更新容器
  • Tag:描述属性
  • scene:当前主要标签系统之一
  • level:与 JLPT 对齐的难度等级

2.3 当前研究阶段允许引用的系统字段

Section titled “2.3 当前研究阶段允许引用的系统字段”
项目当前系统现实研究阶段怎么写本文档禁止动作
type当前正式字段是 news.type,现实值域来自服务端 migration:webpage / video / audio播客样本填 audio,YouTube / B 站样本填 video;若未来出现复合媒介,先写在 notes 或 Gap 表里不再把 format_type 当系统字段;也不把 text / mixed 直接写成“当前系统已支持的正式值”
level当前正式字段是 news.level;公开层稳定映射 N5 / N4 / N3 / N2 / N1 / N1+研究阶段可写展示值,无法判断时统一记 待定不把 待定 或旧写法 不限 写成当前正式后端值
scene当前不是 news 主表字段,而是 scenes + news_scenes 关系层能力仍优先在 Item 层判断主方向,需要时补 secondary 方向不把 scene 写成 news.scene 这种当前已存在的主表字段
source当前正式字段 news.source 只表示 news / imports研究阶段不用它表示平台来源不把 source 复用成 podcast / youtube / bilibili;平台来源继续使用 platformsource_brand

其中要特别强调:

  • type 继续沿用当前主规格体系,但现实值域必须按当前系统写
  • scene 继续作为主内容方向判断能力使用,但现实上仍是关系层,不是主表列
  • 同一个来源品牌下,不同内容可以有不同 scene
  • level 是描述属性,不是归属层
  • platformsource_brand 继续留在研究辅助字段,不冒充系统正式字段

补充说明:

  • 历史草稿里出现过 format_type
  • 为避免与当前执行层字段口径漂移,本文档统一只保留 type
  • 如果历史研究表里仍出现 format_type,一律视为旧列名,进入 Yomiya 前必须映射回 type

平台只是来源,不是最适合做统一分析的主轴。

播客、YouTube、B 站虽然展示形态不同,但它们都天然存在三层对象:

  1. 谁在持续生产内容
  2. 这些内容中有哪些稳定内容线
  3. 用户实际消费的是哪一条内容

如果只按平台分,就很容易把:

  • 播客节目名误当成内容方向
  • YouTube 频道误当成合集
  • B 站合集和单视频混成一层

这会直接破坏后续进入 Yomiya 时的判断:

  • 什么该进 Collection
  • 什么该进 Series
  • 什么只保留成 Tag

所以,平台只作为研究字段 platform 保留,不作为统一分析的主分类轴。


本文档统一采用三层外部分析对象。

定义:持续生产内容的外部来源品牌层。
典型对应

  • 播客:节目名
  • YouTube:频道
  • B 站:UP 主账号

它回答的问题

谁在生产这批内容?

规则

  • Source Brand 不是 Yomiya 内部主承载对象
  • 它主要服务来源识别、风格判断和后续样本归档

定义:来源品牌内部的稳定内容线。
典型对应

  • 播客:节目本体或节目中的固定栏目
  • YouTube:播放列表、系列栏目、长期重复主题
  • B 站:合集、系列栏目、长期重复主题

它回答的问题

用户到底在追哪一条内容线?

规则

  • 这是跨平台统一分析中最重要的一层
  • 后续进入 Yomiya 时,它通常是 Series 候选
  • 若多个 Series Unit 在用户目标上相近,可进一步组织进一个 Collection

定义:实际消费单元。
典型对应

  • 一集播客
  • 一条 YouTube 视频
  • 一条 B 站视频

它回答的问题

用户真正点开、播放、消费的到底是什么?

规则

  • Content Item 与 Yomiya 的 Content Item 是直接同构的
  • sceneleveltype 应优先在这一层判断

本文档中的字段分三组:研究阶段允许引用的系统字段、竞品分析辅助字段、映射输出字段。

5.1 研究阶段允许引用的系统字段

Section titled “5.1 研究阶段允许引用的系统字段”

这些字段的存在性、现实值域、唯一性约束统一以 10-Current-System/yomiya-system-source-of-truth.md 为准。 本节只定义研究阶段如何填写,不在这里单独宣布“系统现在已经有什么”。

字段研究阶段写法回写方式
type播客写 audio;YouTube / B 站写 video;如果遇到当前系统不够表达的复合媒介,先写在 notes当前正式回写到 news.type
level统一写 N5 / N4 / N3 / N2 / N1 / N1+ / 待定回写时映射到当前 news.level待定 不直接落库
scene仍以 Item 层主方向判断为先;如有次方向,先写进 notes 或后续补 secondary 方案当前正式回写到 scenes + news_scenes
source不在研究表里承担平台字段职责当前系统侧继续只保留 news / imports 语义

补充规则:

  • scene 继续作为主内容方向判断能力使用
  • 同一个 Source Brand 下,不同 Item 可以归入不同 scene
  • level 是描述属性,不是归属层
  • platformsource_brand 继续留在研究辅助字段,不挤进系统正式字段表

这些字段用于记录外部内容的母对象与基本元信息,回答“用户真正消费的原始内容是什么”。

字段说明
platformpodcast / youtube / bilibili
source_brand节目名、频道名或 UP 主名
series_unit固定栏目、播放列表、合集、系列主题
sample_levelbrand / series / item
sample_name当前分析对象的名称
type当前统一写 audio / video / webpage
update_patternongoing / seasonal / mixed / unclear
speaker_structuresolo / duo / multi / mixed

补充规则:

  • sample_level=brand 时,允许 series_unit 为空
  • sample_level=item 时,sample_name 应优先写单集 / 单视频标题,而不是品牌名复写
  • 这层先回答“原始对象是谁”,不抢着回答“值不值得切成最小 item”

这些字段用于记录文本化中间层的可获得性与质量预期,回答“后续 AI 能否稳定拿到文本来理解内容”。

字段说明
transcript_availabilitynative / generated / unavailable / unknown,表示原平台是否天然提供可用文本
transcript_sourcecaption / subtitle / asr / article / mixed / unknown
transcript_quality_expectationhigh / medium / low / unknown,表示转写质量的研究判断

补充规则:

  • 图文样本通常可直接写 transcript_availability=native
  • 音视频样本即便可转写,也不等于文本层就是唯一事实层
  • 这层重点判断“是否适合后续结构化”,不是提前假设“有文本就一定适合沉淀”

这些字段用于记录 AI 或研究判断产出的解释性结果,回答“这条内容更像什么,适合放到哪里”。

字段说明
levelN5 / N4 / N3 / N2 / N1 / N1+ / 待定
scene主方向判断,仍优先按 Item 层填写
content_structureexplanatory / conversation / commentary / news / themed-learning / mixed
cross_media_expandability是否适合未来与其他媒介共用一个上层主题
phase1_fit是否适合进入 Yomiya Phase 1 主叙事或补充线

补充规则:

  • scenelevel 继续作为描述层判断,不承担承载职责
  • phase1_fit 不是“内容好不好”,而是“是否适合当前阶段主链路”
  • 这一层优先服务分类、组织和分发判断,不优先服务内容切碎

5.5 映射输出与派生 item 判断字段

Section titled “5.5 映射输出与派生 item 判断字段”

这些字段用于把外部样本落回 Yomiya 内容系统,并记录是否值得进一步派生更细粒度 item。

字段说明
recommended_channel更适合归入哪个一级栏目
recommended_collection_direction更适合进入哪种合集方向
series_candidate是否应视作 Series 候选
item_derivation_valuehigh / medium / low / unknown,表示是否值得进一步切出更细粒度单元
item_derivation_formsentence / segment / quote-card / mixed / none / unknown,表示更可能的派生形态
tag_suggestions建议补充的描述性标签
notes适合 / 不适合原因,或待补信息

补充规则:

  • item_derivation_value 只表示“是否值得进一步切分”,不等于“现在必须建最小 item 主模型”
  • item_derivation_form 用于帮助后续判断细粒度沉淀方向,不是当前系统正式字段
  • 当这层判断长期稳定后,再回写 yomiya-system-source-of-truth.md 讨论是否需要正式承载

  1. 播客节目本体优先落到 Source Brand
  2. 若节目本体天然就是一条连续更新线,节目本体也可同时充当 Series Unit
  3. 播客单集统一作为 Content Item
  4. 单集的 sceneleveltype=audio 仍需单独判断

这意味着:

  • 节目本体可以是 Series 候选
  • 单集仍可进入不同 Collection
  1. 频道先落到 Source Brand
  2. 播放列表、固定栏目、系列主题优先落到 Series Unit
  3. 单视频统一作为 Content Item
  4. sceneleveltype=videoItem 层判断
  1. UP 主账号先落到 Source Brand
  2. 合集、固定栏目、系列主题优先落到 Series Unit
  3. 单视频统一作为 Content Item
  4. B 站不单独再造一套标准,按与 YouTube 同构处理

7. 一个频道下面有很多合集时,怎么划分

Section titled “7. 一个频道下面有很多合集时,怎么划分”

这是后续视频调研时最容易混乱的问题。

当前统一规则如下:

频道只说明“谁在生产内容”,不直接说明“这批内容该如何在 Yomiya 被组织”。

只有在频道内容高度单一、几乎所有内容都围绕同一稳定主题时,才允许把频道近似视作一个大的 Series Unit

规则 2:播放列表 / 合集优先于频道

Section titled “规则 2:播放列表 / 合集优先于频道”

只要频道下已经存在清晰的播放列表、合集或固定栏目,就优先按这些 Series Unit 拆,不按频道整体分析。

即使视频属于某个播放列表,它仍然可以因为具体主题不同而落到不同 scene,并进入不同 Collection

换句话说:

  • Series Unit 解决连续更新关系
  • scene 解决单条内容主方向
  • Collection 解决前台长期发现组织方式

满足以下条件时,优先视作 Series 候选:

  1. 有明确连续更新关系
  2. 用户会期待“下一期”
  3. 内容之间的核心关系是时间顺序或持续连载,而不是仅仅主题相似

典型情况:

  • 固定播客节目
  • 固定主讲人栏目
  • 连载视频
  • 固定更新的播放列表

满足以下条件时,优先视作 Collection 候选方向:

  1. 能围绕长期成立的主题或用户目标组织内容
  2. 主要价值是降低选择成本,而不是强调更新时间顺序
  3. 跨来源、跨系列、跨单条内容组合后仍然成立

典型情况:

  • 慢速可理解输入
  • 真实生活会话
  • 去日本旅行必备
  • JLPT 听力冲刺
  • 动漫日语精听

以下信息只负责描述,不承担承载职责:

  • scene
  • level
  • speech_speed
  • speaker_count
  • transcript
  • 其他运营补充属性

8.4 一个来源品牌不应被直接照搬为前台承载对象

Section titled “8.4 一个来源品牌不应被直接照搬为前台承载对象”

默认情况下:

  • Source Brand 保留为来源信息
  • Series Unit 才是更常见的 Series 候选
  • Collection 应围绕用户目标和长期发现逻辑组织

也就是说,不能因为一个节目或频道有名,就直接把它等同于一个长期 Collection


9. 当前样本缺口与后续调研要求

Section titled “9. 当前样本缺口与后续调研要求”

当前样本覆盖明显偏向播客,视频样本尚未系统补齐。

这意味着:

  • 当前问题是样本覆盖不足
  • 不是统一标准本身缺失

先补 Series UnitContent Item 样本,不急着先堆大量品牌层条目。

对 YouTube / B 站,建议优先补:

  1. 低门槛可理解输入
  2. 真实会话 / 生活口语
  3. 旅行 / 动漫 / 文化方向
  4. 考试专项内容
  1. 先按本标准建统一样本清单
  2. 先迁入现有播客样本
  3. 再补 YouTube 样本
  4. 最后补 B 站样本

这样做的好处是:

  • 标准先成立
  • 样本后扩充
  • 不会让播客研究变成孤岛

播客、YouTube、B 站不再按平台分别分类,而统一按 Source Brand / Series Unit / Content Item 三层分析;scene 继续作为 Item 级主内容方向字段,level 继续沿用 JLPT 等级;最终再映射到 Yomiya 的 Channel / Collection / Series / Tag