QA 合集 🧣📋114
December 1, 2025 · View on GitHub
Keywords: QA
- Transformer · 基础模型 ·
23 - Transformer · 位置编码 ·
24 - Transformer · BERT (Encoder-only) ·
7 - RLHF · 基础 ·
13 - RLHF · 策略梯度算法 ·
6 - SFT · 基础概念 ·
9 - SFT · PEFT · LoRA ·
10 - Agent · Promptint ·
4 - LLM · MoE (Mixture of Experts) ·
8 - LLM · 基座模型 ·
6 - LLM · 训练优化 ·
2 - Other · 非专业问题 ·
2
🔔 待整理
Transformer · 基础模型 · 23
- 1. 🏷️ 模型总览
- 1.1. ✅ 详细说明 Transformer 的整体架构
- 1.2. ✅ 简述 Transformer 的核心思想 (归纳偏置), 它解决了 RNN/CNN 的哪些瓶颈?
- 1.3. ✅ 说明 Transformer 的并行计算与全局依赖是如何实现的?
- 1.4. ✅ Transformer/CNN/RNN 的归纳偏置分别是什么? 比较它们的优缺点
- 1.5. ✅ 简述 Transformer 中 Encoder 和 Decoder 各自的作用和结构
- 1.6. ✅ 对比 Encoder–Decoder、Decoder-only、Encoder-only 三种形态, 解释它们各自更适合的任务与训练范式
- 1.7. 🚩 为什么主流 LLM 选择 Decoder-Only (Causal LM) 架构?
- 2. 🏷️ 模型细节
- 2.1. ✅ 说明自注意力机制的计算过程
- 2.2. ✅ 为什么要对 QK 的点积进行缩放? 缩放因子是?
- 2.3. 🚩 Multi-Head 的动机是什么? 本质是什么? 是如何实现的?
- 2.4. 💡 给定 embed dim 与 num heads, 如何估算 head dim、显存占用与吞吐的关系?
- 2.5. ✅ 为什么 Decoder 中计算自注意力需要 "掩码"?
- 2.6. ✅ Decoder 中的 Attention 与 Encoder 有什么不同?
- 2.7. ✅ Decoder 中的 Cross Attention 中的 Q, K, V 分别来自哪里?
- 2.8. ✅ 为什么 FFN 需要先升维再降维?
- 3. 🏷️ 训练与推理差异
- 4. 🏷️ 解码相关
- 5. 🏷️ 工程优化、失败模式与诊断
Transformer · 位置编码 · 24
Transformer · BERT (Encoder-only) · 7
RLHF · 基础 · 13
- 1. 🏷️ 基础概念
- 1.1. ✅ 什么是 RLHF? 它的背景/动机是什么? 相比 SFT 的优势在哪里? 怎么实现的?
- 1.2. ⬆️ 什么是 对齐? RLHF 是如何实现大模型与人类意图对齐的?
- 1.3. ⬆️ 为什么说 RLHF 比 SFT 具有 更大的策略搜索空间?
- 1.4. ⬆️ 为什么说 RLHF 比 SFT 更容易 对齐抽象偏好?
- 1.5. ✅ RLHF 的一般流程是什么? 每一步的目的? 分别解决什么问题?
- 1.6. ⬆️ 指出每阶段的 输入, 输出 与 失败模式
- 1.7. ✅ 若 SFT 质量不高, RLHF 会发生什么连锁反应?
- 1.8. ✅ 什么是 奖励黑客 (Reward Hacking)/奖励过度/模式坍缩?
- 2. 🏷️ 奖励模型
- 3. 🏷️ 价值模型
RLHF · 策略梯度算法 · 6
SFT · 基础概念 · 9
SFT · PEFT · LoRA · 10
- 1. 🏷️ LoRA 相关
- 1.1. ✅ 什么是 LoRA? 它解决了什么问题? 适用什么场景?
- 1.2. ✅ 与全参微调相比, LoRA 的 表达上限 如何?
- 1.3. ✅ LoRA 的参数量如何计算? 与原参数量的比例?
- 1.4. ✅ LoRA 一般作用于哪些层?
- 1.5. 💡 写出 LoRA 的 数学形式, 并解释各参数的含义与约束
- 1.6. ✅ 为何需要 缩放项
α/r? 去掉会怎样? - 1.7. ✅ 为什么常将
A正态初始化,B初始化为0? 如果不这么做会怎么样? - 1.8. ✅ 如何选择
r(Rank)? 不同任务/数据规模下的建议是什么? - 1.9. 💡 如果希望逼近全参微调效果, 除了增大 r 还能做什么?
- 2. 🏷️ LoRA 的变体
Agent · Promptint · 4
LLM · MoE (Mixture of Experts) · 8
- 1. 🏷️ MoE 基础
- 2. 🏷️ MoE 架构的路由与负载均衡
- 3. 🏷️ MoE 的工程与实现
- 3.1. 🚨 🚩 💡 ❓ ⚠️ ⬆️ 🏷️ ✅ 如何设计实验来验证某个 MoE 路由策略是否真正提升了专家的 "专长分工 (specialization)"?
- 3.2. 🚨 🚩 💡 ❓ ⚠️ ⬆️ 🏷️ ✅ 在推理阶段, 所有专家参数仍需加载到显存, 可以如何优化显存占用?
- 3.3. 🚨 🚩 💡 ❓ ⚠️ ⬆️ 🏷️ ✅ 什么是 "专家容量 (Expert Capacity)"? 为什么需要? 当 token 超过容量时, 常见的处理策略有哪些?
- 3.4. 🚨 🚩 💡 ❓ ⚠️ ⬆️ 🏷️ ✅ MoE 在小数据集下微调时, 为什么容易过拟合或不如稠密模型稳定? 有哪些改进思路?
- 3.5. 🚨 🚩 💡 ❓ ⚠️ ⬆️ 🏷️ ✅ 如果路由器在训练中出现 专家塌陷, 你会如何诊断与修复?
- 3.6. 🚨 🚩 💡 ❓ ⚠️ ⬆️ 🏷️ ✅ 假设你要在一个多模态任务 (文本+图像) 上设计 MoE, 你会如何划分专家?
- 3.7. ✅ 给定 8 专家, Top-2 策略, 400B 参数的 MoE 层, 估算单 token 实际激活的参数量和 batch size = 1024 时平均每个专家分配的 token 数.