Starter Rubric:观点类视频

May 5, 2026 · View on GitHub

**这是给完全没数据的新博主用的占位 rubric。**它会打错。前 5 篇预测精度大概 ±50%——这是 cold-start 的数学事实,不是 rubric 失败

跑完 5 篇(每篇都走完 /cheat-predict → 发布 → /cheat-retro 闭环)之后,你会有第一份个人校准数据,可以提议第一次 /cheat-bump 升级到 v1(或直接采用 opinion-video.md 的 v2 作为起点重新校准权重)。


v0 综合分公式(等权占位

composite = (ER + HP + QL + NA + AB + SR + SAT) / 7 × 2.0

每个维度 0-5 整数分。综合分范围 0-10。

为什么等权而不是 v2 的差异化权重

  • 没有数据支持任何特定权重
  • 用 v2 的权重起步会让你以为这些权重是普世的——它们不是,是参考博主账号拟合的
  • 等权能让你在数据出来之前对每个维度都给"中立的关注"
  • 第 5 篇之后你的复盘数据会告诉你哪些维度真的预测了你的账号的传播

7 个维度

ER — Emotional Resonance(情感共鸣)

稿子能否在前 30 秒让观众产生一种具体的、能命名的情感?

  • 0 — 纯信息传递;没有情感钩子
  • 3 — 一般共鸣
  • 5 — 锐利、具体、让人不太愿意承认的自我识别

HP — Hook Potential(钩子强度)

前 3 秒能不能逼观众看下去 30 秒?

  • 0 — 通用开场("大家好...")
  • 3 — 具体的承诺或反直觉断言
  • 5 — 一个具体生动的场景,观众无法停止处理

QL — Quotable Lines(金句密度)

稿子里至少 2-3 行能被截图、能作为独立文字单独传播吗?

  • 0 — 全是叙述
  • 3 — 结尾有一句令人记住的
  • 5 — 多句独立可用、分布在稿子不同位置

NA — Narrativity(叙事性)

有可辨识的弧线,还是平铺直叙?

  • 0 — 列表式
  • 3 — 松散主线
  • 5 — 紧凑三幕结构

AB — Audience Breadth(受众广度)

这个议题潜在受众有多广?

  • 0 — 极小众
  • 3 — 中等
  • 5 — 普世

SR — Social Resonance(社会议题共振)

稿子触及当下的社会模式吗?

  • 0 — 纯个人 / 人际
  • 3 — 触到公认现象但没新视角
  • 5 — 命名了一个观众认识但没有语言形容的结构性模式

SAT — Satire Depth(讽刺深度)

稿子用了多层反讽 / 戏仿格式吗?

  • 0 — 真诚直陈
  • 3 — 一层反讽
  • 5 — 嵌套或自指反讽

如果你的频道走真诚路线,SAT 给 3 当占位即可。


Bucket 预测:所有阶段统一格式 + 渐进信心标注

早期预测精度差是数学事实——不通过省略 bucket 解决,通过 header 的 confidence 等级 + 概率分布更平来诚实表达不确定。详见 shared-references/prediction-anatomy.mdstate-management.md 的 confidence 表

calibration_samples 少时,概率分布应该更平(如 30/30/20/15/5 而非 5/40/45/8/2)——这是诚实表达不确定的方式,不是把 bucket 跳过。

比率桶方案(适用所有阶段)

⚠️ 新人的 bucket 不能用绝对数字——参考博主的"5w 是底部"对一个 0 粉新人来说是"现象级爆款"。 如果照搬绝对数桶,你每条视频都会落"底部 99%",bucket 失去任何排序意义。

比率桶用"相对你自己上一篇的倍数"来分桶。永远适用,不管你账号多大。

第 1 篇:用平台通用默认(你还没有"上一篇")

抖音 / B 站 / TikTok / YouTube 上 0 粉新人的第 1 条视频典型分布:

Bucket范围(实际播放数,不是万含义先验概率
底部< 100几乎被算法埋了30%
基础盘100 - 1,000完播率支撑的小推荐40%
命中1,000 - 10,000第一次破圈的信号20%
小爆10,000 - 100,000极罕见的"零粉首爆"8%
大爆> 100,000平台算法异常加权2%

公众号 / Substack 把"播放"换成"阅读",量级类似(0 粉公众号第一篇阅读 50-500 是常态)。

第 1 篇预测时:选一个 bucket + 写概率分布。很可能落"基础盘"——这是数学事实,不是你失败。

第 2 篇起:用比率桶

baseline = 上一篇的实际播放数(或最近 3 篇的中位数,如果有)。

Bucket倍数范围含义
退步< 0.3 × baseline比上一篇明显差
持平0.3 - 1 × baseline与上一篇同档
命中1 - 3 × baseline中度突破
小爆3 - 10 × baseline显著破圈
大爆> 10 × baseline量级跃迁

比率桶的好处

  • 100 → 1000 播放(10x) 与 5w → 50w 播放(10x) 是同一种成就——比率桶都标"大爆"
  • 你的账号从 0 粉长到 10w 粉,bucket 边界自动跟着涨
  • 不需要"我今天该不该过誉这个数"——倍数是绝对的

例子

  • 第 1 篇 480 播放(落"基础盘")→ baseline = 480
  • 第 2 篇预测 bucket = "命中"(500-1500),实际 1200 → 命中
  • 第 3 篇 baseline 滚动更新 = (480 + 1200) / 2 = 840

第 5 篇之后:建议固定绝对桶 + 比率桶并存

跑完 5 篇后,你的 baseline 已经从 5 个数据点稳定。/cheat-status 会主动提示:

你已校准 5 篇,可以基于实际分布固定绝对 bucket 边界。 跑 /cheat-bump --bucket-only 自动派生。

固定后绝对桶用于"长期趋势识别"(这条比上个月那条好不好?),比率桶用于"近期波动"(这条比上一篇好不好?)。

N≥10 之后:可以转向 percentile 桶

校准池 ≥ 10 时,bucket 边界改用 percentile:你前 20% 的视频是"爆款",10-20% 是"命中",30-70% 是"基础盘"。这种方案永远自洽——不管账号多大,"top 20%" 的语义稳定。


重要警告

  • 上面的占位概率是"什么都不知道时的先验"——你的真实分布会在第 5 篇后涌现
  • 第 1-5 篇你对自己 bucket 边界的判断会大幅波动——这是 cold-start 的正常状态
  • 第 5 篇之后必须/cheat-bump --bucket-only 重新校准

Cold-start 战略(必读,最被忽视的一段

cold-start 期的"预测"不是预测——是数据采集。理解这一点是工具是否对你有用的分水岭。

你的预测在前 5 篇做的是三件事

  1. 建立纪律:在看到任何数据前写下盲判断。这才是脊柱——不是数字本身
  2. 记录 7 维评分:复盘后每条样本变成一个 (打分, 实绩) 配对,第 5 篇时这些配对是 rubric 第一次升级的输入
  3. 记录锚点假设:写下"我押 ER=5 比 ER=3 流量高"这样的假设,复盘验证 → rubric 升级的证据

你不应该做的事:基于 cold-start 期的 composite 决定要不要发某条稿子。精度 ±50%——决策没意义。已经决定要发的,跑完整循环;正在犹豫要不要发的,靠你自己感觉。

前 5 篇的取样策略:主动选差异最大的稿子

如果你前 5 篇都是 ER=5 / SR=2 / HP=5 的同款,复盘时你无法告诉哪个维度真的预测了流量——多重共线性。

反直觉但正确的做法:cold-start 期主动选维度组合差异最大的样本:

  • 1 篇 ER 主导(情感向,SR 低)
  • 1 篇 SR 主导(社会议题向,ER 低)
  • 1 篇 SAT 主导(讽刺向)
  • 1 篇 QL 主导(金句密集)
  • 1 篇综合中等(all 3-4)

如果你只有"安全的同款稿",挑差异最大的 5 个。稳定期再追求"全发爆款",cold-start 期追求"信息量最大"

何时开始相信预测

校准样本你能相信什么
N=0-2啥都别信。bucket 是占位
N=3-5相信"哪个维度可能重要"的方向;不信具体 composite 数字
N=5-10相信 bucket 排序;不信中枢点估计
N=10-20中枢可信 ±30%;可作为决策参考之一
N≥20rubric 真正成为"作弊器"——但你也已经摸到自己的内容直觉了

cold-start 真正的礼物不是预测精度——是它强迫你建立的复盘习惯。这个习惯持续到 N=20 时,你的内容直觉本身就强很多了。


Cold-start 期的复盘纪律(比稳定期更严

前 5 篇每篇必走完整循环。任何一篇跳过复盘 → 整个校准失败

每次复盘必须填的最少信息:

  • 实际播放 / 阅读
  • 实际点赞数(看赞播比)
  • 实际评论数(看互动)
  • Top 3 评论 + 赞数(看观众真实的接收点)
  • 我的 v0 预测 vs 实际:哪个维度被验证 / 推翻

5 篇之后你会看到至少一个 pattern——比如"我的 ER 总是高估"或"我的 SR 维度根本不预测什么"——这个 pattern 是你第一次 bump 的证据。


第 6 篇起的升级选项

跑完 5 篇校准后,你有 3 条路:

路径 A:从 v0 → v1(自己拟合权重)

/cheat-bump --propose "<你的具体权重调整>"。系统会强制全量重打 + 跨模型审核。

路径 B:直接采纳 v2 作为起点

opinion-video.md 的 v2 公式抄到你的 rubric_notes.md然后跑 /cheat-bump——bump 流程会用你的 5 篇数据验证 v2 在你账号上是否真的更优。

路径 C:保持 v0 等权,跑更多样本

如果 5 篇还看不出明显 pattern,再跑 5 篇。等权的 v0 在 10-15 个样本之前都不丢人。


这份 rubric 不能做的事

  • 不能告诉你"会不会爆"——cold-start 期的预测置信度低,bucket 通常应给 30%-50% 而非 ≥80%
  • 不能替你设 bucket 边界——平台 / 账号差异太大
  • 不能跨账号迁移——同一份 v0 rubric 在不同人的账号上拟合出的 v1 不一样

最重要的一句话

前 5 篇你不是在做决策,你是在收集数据。

cold-start 期最大的诱惑是"看着 composite 8.4 就觉得这条会爆"。别信。8.4 是相对一份还没校准过的 rubric 算的——它对你的账号几乎没意义。第 5 篇之后再开始相信数字。