跳转到内容

2026-04-03-ai-handoff

文档状态:历史证据 当前替代文档:../../../README.md 为什么保留:保留单次 session 的完整交接上下文,便于需要时追溯当时的判断和接力点。

用途:给下一位 AI 直接接续当前 Yomiya 工作
当前目标:从文档结构重构,进入“继续探讨并收敛整个内容数据库方案”的阶段
最后更新:2026-04-03


这次 Session 的核心工作,不是继续扩写内容策略,而是先把 ../ 这一层的文档结构重构掉,避免后续执行阶段继续被大量分散文档拖慢。

已经完成:

  1. 把旧的 01-05 目录结构,重构为新的 6 层结构:

    • 00-Start-Here/
    • 10-Current-System/
    • 20-Execution-Spec/
    • 30-Research-and-Evidence/
    • 40-History-and-Decisions/
    • 50-Future-Questions/
  2. 新建了 3 份默认执行主文档:

    • 00-Start-Here/yomiya-action-plan.md
    • 10-Current-System/yomiya-system-source-of-truth.md
    • 20-Execution-Spec/yomiya-spec.md
  3. 把研究、样本、推理、旧规格、历史 review、未来问题全部保留下来,迁移到了 30 / 40 / 50 层,没有随意丢弃推理过程。

  4. 根 README 已重写为新的总导航:

    • ../README.md
  5. 设计文档和实施计划已经写入:

    • ../../plans/2026-04-03-yomiya-docs-restructure-design.md
    • ../../plans/2026-04-03-yomiya-docs-restructure.md
  6. 这次重构已经形成待合并提交链,后续需要把它并入 main 后再继续下一阶段工作。


后续任何 AI,不要再从历史长文档开始读。默认从这 3 份开始:

  1. ./yomiya-action-plan.md
  2. ../10-Current-System/yomiya-system-source-of-truth.md
  3. ../20-Execution-Spec/yomiya-spec.md
  • 00-Start-Here/ 负责当前轮次行动总账、阅读顺序、里程碑、角色分工

  • 10-Current-System/ 负责当前系统现实、正式已存在对象 / 字段 / 关系 / 差距动作

  • 20-Execution-Spec/ 负责当前目标规格、命名、页面职责、边界、冻结规则

  • 30-Research-and-Evidence/ 负责竞品研究、推理、样本、映射方法、基础策略与工程差距分析

  • 40-History-and-Decisions/ 负责旧规格、历史拆分、review 记录

  • 50-Future-Questions/ 负责未来能力和开放问题

后续如果出现冲突,按这个顺序判断:

  1. 当前行动怎么做 → 看 00-Start-Here/
  2. 当前系统现实是什么 → 看 10-Current-System/
  3. 当前目标规格是什么 → 看 20-Execution-Spec/
  4. 为什么这么判断、证据是什么 → 看 30-Research-and-Evidence/
  5. 历史上为什么会这样演变 → 看 40-History-and-Decisions/

3. 当前已经收敛出来的关键产品结论

Section titled “3. 当前已经收敛出来的关键产品结论”

这些结论已经明确,不要在下一轮重新发散:

  1. 当前 Phase 1 的目标不是做完整学习系统,而是先建立内容平台主链路。

  2. 当前主链路固定为: 内容进入系统 -> 内容结构化 -> 内容被组织 -> 首页完成发现 -> 用户开始消费 -> 用户继续消费 -> 用户第二天再回来

  3. 首页是内容平台首页,不是学习任务首页。

  4. 当前对象边界已经收敛:

    • Channel 管长期归属
    • Collection 管前台发现
    • Series 管连续更新
    • Topic 管短期运营
    • Tag 管描述,不负责承载
  5. 当前系统现实已经明确:

    • 正式主内容对象仍是 news
    • 长期归属仍是 channel
    • scene 仍是关系层能力
    • 当前还没有正式 collections / series / topic
  6. 当前执行优先级已经收敛:

    • 先把内容结构化和内容数据库打磨出来
    • 再让 Collection 层成立
    • 再让首页真正承接这些内容
    • 不是先做复杂推荐、复杂搜索、复杂学习机制

后续工作的重点已经从“整理文档”切换到:

继续探讨并收敛整个内容数据库方案。

更具体地说,后续任务的主目标应该是:

  1. 明确内容数据库当前现实和目标模型之间的差距

  2. news 为核心的现有内容数据层,打磨到能稳定支撑:

    • 图文
    • 视频
    • 音频
    • 标签
    • 可分发资格
    • Collection 组织
  3. 把“可入库”“可结构化”“可分发”“可首页推荐”的准入墙,从文档规则继续收敛成更明确的数据库与接口方案

  4. 为后续 Collection 层、首页分发层、内容运营层准备一个足够清晰、足够稳定、足够可讨论的内容数据库方案基础

但这里的“内容数据库方案”,不只是数据库表结构讨论,还包括:

  • 外部内容源如何继续调研与采集
  • 多媒介内容如何按现有框架分类
  • 这些内容最终应如何沉淀为 Yomiya 可复用的数据层

一句话说:

下一阶段不是再做文档治理,也不是直接开干实施,而是先把内容数据库这一层的目标模型、边界、约束和演进路径讨论收敛清楚。


下一位 AI 不应该只围绕“表结构”空谈,而应围绕下面 3 条线继续讨论。

方向 A:从播客数据源继续按统一框架做分类采集

Section titled “方向 A:从播客数据源继续按统一框架做分类采集”

这件事已经有基础,但还远没完成。

下一轮要继续做的是:

  1. 30-Research-and-Evidence/mapping-notes/播客与视频内容统一分析标准.md 为统一框架
  2. 30-Research-and-Evidence/samples/播客与视频竞品统一样本清单.md 作为默认样本模板,沿用当前已经重组好的四层字段
  3. 从原有播客数据源继续按统一字段采样,而不是零散记录
  4. 优先补齐:
    • source_brand
    • series_unit
    • sample_level
    • type
    • update_pattern
    • transcript_availability
    • transcript_source
    • transcript_quality_expectation
    • level
    • scene
    • content_structure
    • phase1_fit
    • recommended_channel
    • recommended_collection_direction
    • item_derivation_value
    • item_derivation_form
  5. 不要只做“识别节目名”,而要继续判断:
    • 它适合进入哪个内容方向
    • 它更像 Collection 候选,还是 Series 候选
    • 它是首页主路径素材,还是只适合作为补充层

一句话说:

播客这条线还没有收完,下一轮要继续做的是“按统一框架补样本”,而不是只看零散节目。

方向 B:扩展到 YouTube 方向,并研究搜索关键词与发现工具

Section titled “方向 B:扩展到 YouTube 方向,并研究搜索关键词与发现工具”

下一轮不应只停在“播客怎么收”,还应开始认真研究:

  1. YouTube 上有哪些适合 Yomiya 的内容类型
  2. 这些类型分别能用什么关键词搜索出来
  3. 有哪些工具、平台、技能,适合用来发现和沉淀优质来源

这里的任务不是马上给出一组唯一正确的关键词,而是要形成:

  • 一套关键词搜索框架
  • 一套发现优质来源的工具清单
  • 一套把发现结果纳入样本框架的方法

建议下轮至少从这些关键词簇开始讨论,而不是直接搜单个频道名:

  • japanese listening practice
  • comprehensible japanese
  • slow japanese
  • easy japanese
  • japanese shadowing
  • japanese conversation
  • daily japanese
  • japanese vlog
  • learn japanese through anime
  • japanese news easy
  • jlpt listening
  • japanese travel phrases
  • japanese culture
  • japanese podcast
  • nihongo podcast
  • 日本語 聞き流し
  • 日本語 会話
  • 日本語 シャドーイング
  • 日本語 初級
  • 日本語 中級
  • 日本語 上級
  • やさしい日本語
  • 日本語 ポッドキャスト
  • 日本語 ニュース
  • 日本語 旅行
  • 日本語 アニメ

下一轮不应只讨论“哪些词能搜到结果”,而应讨论:

  • 哪些词更容易搜到可理解输入
  • 哪些词更容易搜到真实生活会话
  • 哪些词更容易搜到动漫/兴趣向内容
  • 哪些词更偏考试工具型,可能不适合作为主路径

当前仓库里没有“专门做 YouTube 内容搜集”的现成 skill。

但下一轮可以围绕这几类工具继续讨论:

  1. YouTube 搜索 + 播放列表人工框架采样 最直接,但需要定义好关键词簇和筛选标准

  2. YouTube Data API 适合系统化拉取频道、视频、播放列表、标题、描述、发布时间、时长等元信息

  3. 播客平台目录 / 排行工具 例如 Apple Podcasts、Spotify、Listen Notes 一类目录工具,用于继续补播客源

  4. 手工样本表 + 统一字段模板 当前最稳妥,适合在判断框架仍未完全稳定前继续使用

  5. 浏览器自动化 / 搜索辅助 用于批量查看频道、节目、播放列表、描述和评论区风格,但前提仍是先定义字段模板

如果下一个 AI 要继续接这一块,建议明确回答:

  • 仓库里当前没有专门的“优质内容搜集 skill”
  • 但已经有用于统一研究判断的框架文档
  • 下一轮的重点是把“搜索关键词框架 + 来源筛选方法 + 样本表字段”三件事配起来

方向 C:这些内容最终该如何沉淀进 Yomiya 框架

Section titled “方向 C:这些内容最终该如何沉淀进 Yomiya 框架”

这是下一轮最值得质疑和继续讨论的点。

你当前的设想是:

先把外部内容转成文字,再由 AI 把这些最小 item 沉淀进系统

这个方向有价值,但现在还不能直接当成最终答案

下一轮必须继续质疑至少 4 个问题:

质疑 1:文字是不是唯一正确的中间层?

Section titled “质疑 1:文字是不是唯一正确的中间层?”

不是一定。

原因:

  • 视频和音频的价值不只在文本,还在语速、语气、说话人结构、情绪、剪辑节奏
  • 纯文本会丢掉一部分对 level / scene / content_structure 很重要的信息

更稳的理解应该是:

  • 文字转写是重要中间层
  • 但不应被误当成唯一事实层
  • 原始媒体、元信息、转写文本、AI 结构化结果,可能是四层不同资产

这件事当前还没定死。

可能的层级至少有:

  1. 外部原始内容单元
    例如一集播客、一条视频、一篇图文

  2. Yomiya 内容条目
    当前更接近 news 这一层

  3. 可继续切分的更小文本 / 片段单元
    例如句子、片段、片段主题、知识点

下一轮要继续讨论的是:

  • “最小 item” 是不是等于外部单条内容
  • 还是应允许从单条内容继续切出更小的可消费 / 可索引 / 可推荐单元

质疑 3:Collection 应该组织原始内容,还是组织 AI 提炼后的 item?

Section titled “质疑 3:Collection 应该组织原始内容,还是组织 AI 提炼后的 item?”

这件事也不能先拍死。

可能有两种路径:

  • Collection 组织原始内容条目
  • Collection 组织 AI 提炼后的二级单元或混合单元

下一轮要继续判断:

  • 首页和详情页真正承接的,应该主要是原始内容,还是 AI 切分后的二级 item
  • 不同类型内容是否需要不同沉淀策略

质疑 4:AI 结构化应该落在哪一层?

Section titled “质疑 4:AI 结构化应该落在哪一层?”

AI 可能参与至少三层:

  1. 内容分类层
    判断 scene / level / content_structure / phase1_fit

  2. 内容切分层
    判断是否拆出更小 item、片段、金句、可复用单元

  3. 内容组织层
    判断归入哪个 Collection / Series / Channel

下一轮不应先默认三层都做,而应先讨论:

  • 哪一层对当前最有价值
  • 哪一层最值得先打磨
  • 哪一层最容易做重

一句话说:

“转文字 + AI 生成最小 item” 是一个值得继续讨论的方向,但现在仍然是候选框架,不应直接跳成定案。


  1. ./yomiya-action-plan.md
  2. ../10-Current-System/yomiya-system-source-of-truth.md
  3. ../20-Execution-Spec/yomiya-spec.md
  1. ../30-Research-and-Evidence/foundations/yomiya-engineering-gap-analysis.md
  2. ../30-Research-and-Evidence/foundations/yomiya-content-asset-layering.md
  3. ../30-Research-and-Evidence/foundations/yomiya-content-research-workflow.md

原因:

这份文档最接近“数据库现实、API 现实、工程差距、最小工程方案”。 如果下一步要继续打磨内容数据库,它是最直接的桥梁文档。

新增的 yomiya-content-asset-layering.md 则用于保存这轮关于 “原始内容 / 转写文本 / AI 结构化 / 最小 item” 之间关系的 reasoning, 避免后续 AI 只记住结论,不知道为什么当前不应该直接走“先转文字再把最小 item 当主对象”的路线。

新增的 yomiya-content-research-workflow.md 则用于把 “为什么先跑 Mirra 播客池、四层样本模板怎么走、何时扩到 YouTube、何时再进入数据库方案讨论” 这整套流程可视化下来。

  1. ../30-Research-and-Evidence/foundations/yomiya-content-strategy.md
  2. ../30-Research-and-Evidence/mapping-notes/播客与视频内容统一分析标准.md
  3. ../30-Research-and-Evidence/competitive-analysis/Mirra播客排查与运用.md

这些文档主要用于理解:

  • 为什么内容对象会这样设计
  • 多媒介内容未来会怎么进入数据库
  • 播客 / 视频样本如何映射为 Collection / Tag / Channel

7. 下一位 AI 应该补充回答的问题

Section titled “7. 下一位 AI 应该补充回答的问题”

下一轮不是直接下结论,而是建议继续围绕下面这些问题展开:

  1. 播客样本补齐时,当前统一字段模板是否还缺关键列?
  2. YouTube 关键词簇是否应该按内容取向分层,而不是按平台散搜?
  3. 是否需要建立一份“优质来源判定标准”?
  4. 转写文本在整个沉淀框架里是“唯一事实层”还是“重要中间层”?
  5. Yomiya 最小 item 到底应该定义在“原始内容层”还是“AI 切分后的片段层”?
  6. Collection 当前应先组织什么:原始内容、AI 切片,还是两者混合?
  7. 数据库方案是否应先服务“原始内容可组织”,再考虑“细粒度 item 沉淀”?

  1. 不要重新回到旧 01-05 结构思考问题
  2. 不要跳过 00 / 10 / 20 直接从研究长文开始
  3. 不要重新发散首页主叙事
  4. 不要把未来能力提前混进当前数据库打磨任务
  5. 不要把“研究层理想形态”直接写成“当前系统现实”

如果下一位 AI 要立刻继续推进,我建议直接从这个问题开始:

“基于 10-Current-System/yomiya-system-source-of-truth.md30-Research-and-Evidence/foundations/yomiya-engineering-gap-analysis.md,继续探讨并收敛一份面向 Backend 的内容数据库方案:当前表结构、必须补齐的字段 / 关系 / 约束、Collection 层可能的落库方案、准入墙应该如何表达、以及对应 API 和后台能力应如何演进。”

这会把后续讨论收敛到真正有价值的方向:

  • 数据模型
  • 唯一性约束
  • 内容结构化要求
  • Collection 落库
  • 分发资格状态
  • API 设计
  • 后台运营控制能力

10. 推荐的下一轮 session 开场方式

Section titled “10. 推荐的下一轮 session 开场方式”

建议下一个 AI 不要一上来就写数据库表,而是按这个顺序开场:

  1. 先确认当前讨论目标是“继续调研 + 收敛方案”,不是直接实施
  2. 先读 00 / 10 / 20 三份执行文档,避免重新发散
  3. 然后进入 3 条讨论主线:
    • 播客样本继续分类采集
    • YouTube 关键词簇与优质来源发现方法
    • 内容沉淀框架:原始内容、转写文本、AI 结构化、最小 item 之间的关系
  4. 最后再讨论数据库方案应该如何承接这些东西

这次 Session 已经把 Yomiya 文档体系从混乱的大量散文档,重构成了“执行层 + 证据层”的结构;下一位 AI 不需要再做文档治理,而应该基于新的入口,继续和你一起探讨并收敛内容数据库方案。