README_zh.md

May 27, 2026 · View on GitHub

面向 LLM、VLM、Diffusion 与 Embodied 模型的模块化、可扩展、高性能训练框架。

🚀 训练加速最高可达 5.04× · 🌐 原生支持 NVIDIA GPU 与昆仑芯 XPU

💡 为什么选择 LoongForge？

🐉 LoongForge 是百度百舸 Loong 开源系列的一员 —— 名字源于中国传统龙舟，象征协同发力与破浪前行。

LoongForge 是面向 LLM、VLM、VLA 与 Diffusion 模型 的统一训练框架，覆盖 预训练（Pre-training）、持续预训练（Continued Pre-training） 和 SFT。基于 Megatron-LM 在 模型覆盖度、训练性能 和 硬件支持 三个维度做了深度系统性增强，相对主流开源训练方案有显著的性能提升。

在开源之前，LoongForge 的前身是 AIAK-Training-LLM —— 百度百舸的训练加速栈，已在教育、计算机视觉 和 Embodied AI 等多家企业客户的生产训练中落地，相对客户原有方案通常带来 30%~50% 加速，最大规模的生产训练任务达到 5,000+ XPU。

🔥 最新动态

[2026/05] ⚡ Wan 2.2 训练 加速 116%，并新增 CP（上下文并行）与数据 packing 策略支持。
[2026/05] ✨ 新增 Kimi K2.5 / K2.6 训练支持，并支持 INT4 / NVFP4 PTQ 量化能力。
[2026/05] 🎉 v0.1.0 —— LoongForge 首个正式版本发布。
[2026/05] 🌟 支持 LLaVA-OneVision-2.0 模型训练并协助其公开发布。
[2026/05] 🤖 扩展 VLA 模型覆盖，新增 GR00T N1.6；Pi0.5 与 GR00T 训练实现 60%+ 加速。
[2026/04] 🧩 新增 MiniMax-M2.7 在 NVIDIA GPU 与昆仑芯 XPU 上的训练支持。
[2026/04] 🚀 LoongForge 源码在 GitHub 上正式公开。[blog]
[2026/05] 🌟 基于AIAK-Training-LLM（LoongForge 前身）支持 LLaVA-OneVision-1.5 模型训练并协助其公开发布。[blog]

⚡ 快速开始

完整的安装、教程与进阶使用请查阅文档 —— English · 中文。

1. 安装 —— 可通过 Docker（预构建镜像即将发布）或 源码构建：

NVIDIA GPU：安装指南
昆仑芯 XPU：安装指南

2. 启动你的第一个训练任务 —— 根据目标硬件与模态选择教程：

NVIDIA GPU：LLM · VLM · VLA · Diffusion (WAN)
昆仑芯 XPU：昆仑芯 XPU 教程

3. 深入探索 —— 浏览 configs/models/ 和 examples/ / examples_xpu/ 下的现成启动脚本。

✨ 核心特性

🧩 灵活的多模态组合 —— 通过配置驱动的方式，将可互换的 ViT 与 LLM 组件自由组装为 VLM。
⚡ 异构并行 —— 针对模型不同组件（如 ViT vs LLM）独立配置 TP / DP / 重计算策略，获得最优吞吐与显存占用。 [blog]
🔀 Encoder-Decoder 解耦训练 —— 将 ViT 与 LLM 拆分为独立任务，消除 Encoder 带来的流水线气泡。
⚖️ DP 负载均衡 —— 基于负载感知的数据重分发，缓解序列打包（sequence packing）不均衡问题，显著提升多节点扩展效率。 [blog]
🚀 MoE 原生优化 —— All2All / 激活卸载 / 计算全链路重叠，在 DeepSeek-V3、Qwen3-MoE 等模型上相对上游 Megatron-LM 实现进一步显存降低。
🔬 自适应 FP8 训练 —— 面向 LLM 和 VLM 的端到端 FP8，支持标准 blockwise FP8；可选 自适应 模式根据 GEMM 形状与效率逐算子选择最佳精度。
🔧 自定义融合算子 —— 为 DSA 类模型设计的 FusedDSA 等融合 Kernel —— TileLang 版本已开源，高性能 CUDA 版本在百度百舸平台提供。
🔁 灵活的 Checkpoint 机制 —— 支持离线 Megatron ↔ HuggingFace 双向转换，以及在线原生 HF 加载/保存，全流程无格式壁垒。
🧰 丰富的流水线与数据工具 —— 开箱即用的 Pretrain / MidTrain / SFT / LoRA 流水线，内置数据集格式转换与序列打包能力。
🌐 异构硬件 —— 通过轻侵入式插件设计，原生支持 NVIDIA GPU 与 昆仑芯 XPU。

📖 深入阅读：LLM 特性 · VLM 特性

📊 性能 Benchmark

在 v0.1.1 版本上针对 LLM、VLM、VLA、DIT 四类工作负载，与主流开源训练方案的对比结果：

模型	类型	对比基线	配置	加速比
Qwen3-30B-A3B	MoE	Megatron-LM^†	32 × A800^‡ · GBS 1024 · 32K	1.16×
DeepSeek-V3.2 Lite ^§	MoE + DSA	Megatron-LM^†	减层配置 · GBS 128 · 8K 序列	5.04×
Qwen3-VL-30B-A3B	VLM	VeOmni^†	32 × A800^‡ · GBS 128 · 32K	1.45×
GR00T N1.6	VLA	LeRobot^†	8 × A800^‡ · GBS 128 · 224×224	2.31×
Pi0.5	VLA	OpenPI^†	8 × A800^‡ · GBS 112 · 224×224	1.65×
Wan2.2	DIT	DiffSynth^†	8 × A800^‡ · 480×832x49	2.16×

^§ 受测试台规模限制，DeepSeek-V3.2 在减层配置下单独验证 —— LoongForge 的 DSA CUDA Kernel 优化 相对 Megatron-LM 仍带来 ~5× 加速，并可支持 64K 序列长度（基线在 8K 以上即 OOM）。
^† 数据反映测量时对应基线的实现，后续可能随实现演进而变化。
^‡ 更多硬件平台的验证将在后续版本中陆续推出。

🌟 基于 LoongForge 训练

LLaVA-OneVision-2.0 —— 新一代多模态模型，配套全新的 VideoCaption 和 Spatial 数据集。
LLaVA-OneVision-1.5 —— 面向多模态训练民主化的全开源框架。
Qianfan-VL —— 面向企业的领域增强视觉-语言模型，参数量覆盖 3B ~ 70B。

🏛️ 支持的模型

LoongForge 已支持 LLM、VLM、Diffusion 与 VLA 等多模态的广泛的 SOTA 模型。

模态	架构	模型
LLM	DeepSeek-V2	deepseek-v2-lite, deepseek-v2
	DeepSeek-V3	deepseek-v3, deepseek-v32
	LLaMA2	llama2-7b, llama2-13b, llama2-70b
	LLaMA3	llama3-8b, llama3-70b
	LLaMA3.1	llama3.1-8b, llama3.1-70b, llama3.1-405b
	Qwen	qwen-1.8b → qwen-72b
	Qwen1.5	qwen1.5-0.5b → qwen1.5-72b
	Qwen2	qwen2-0.5b → qwen2-72b
	Qwen2.5	qwen2.5-0.5b → qwen2.5-72b
	Qwen3	qwen3-0.6b → qwen3-480b-a35b, qwen3-coder-30b-a3b
	Qwen3-Next	qwen3-next-80b-a3b
	MiniMax	minimax-m2.1, minimax-m2.5, minimax-m2.7
	MIMO	mimo-7b
	GLM	glm5
VLM	Qwen2.5-VL	qwen2.5-vl-3b → qwen2.5-vl-72b
	Qwen3-VL	qwen3-vl-30b-a3b, qwen3-vl-235b-a22b
	Qwen3.5	qwen3.5-0.8b → qwen3.5-397b-a17b
	Qwen3.6	qwen3.6-27b, qwen3.6-35b-a3b
	Kimi-K2.5	kimi-k2.5, kimi-k2.6
	ERNIE4.5-VL	ernie4.5vl-28b-a3b
	LLaVA-OneVision-1.5	llava-onevision-1.5-4b
	InternVL2.5	internvl2.5-8b → internvl2.5-78b
	InternVL3.5	internvl3.5-8b → internvl3.5-241b-a28b
	CustomCombinedModel	ViT + LLM backbone 灵活组合（示例）
Diffusion	WAN2.2	wan2.2_i2v_a14b
VLA	Pi	pi0.5
	GR00T	groot-n1.6

🚀 路线图

模型支持

LLM / VLM：持续验证与发布新模型（如 DeepSeek-V4）
Embodied AI：扩展 WAM 覆盖（如 DreamZero、LingBot VA）

性能与扩展性

跟进 DeepSeek-V4 引入的下一代训练技术
更先进的 MoE 负载均衡策略
基于 ChunkPipe 调度与 Context Parallelism 的长序列训练
Diffusion 模型（如 WAN）进一步加速
INT4 量化感知训练（QAT）
MTP（Multi-Token Prediction）扩展，用于投机推理

🏗️ 代码结构

📁 目录树

LoongForge/
├── loongforge/                   # 核心训练框架
│   ├── train/                    # 训练入口与训练器
│   │   ├── pretrain/             #   预训练（LLM、VLM）
│   │   ├── sft/                  #   SFT（LLM、VLM、InternVL、ERNIE）
│   │   ├── diffusion/            #   Diffusion（WAN）
│   │   └── embodied/             #   Embodied AI（Pi0.5、GR00T）
│   ├── models/                   # 统一的模型抽象层
│   │   ├── foundation/           #   LLM 主干（LLaMA、Qwen、DeepSeek、...）
│   │   ├── encoder/              #   视觉编码器（ViT、Qwen-VL、InternVL、...）
│   │   ├── omni_models/          #   多模态组合
│   │   ├── diffusion/            #   Diffusion 模型（WAN）
│   │   ├── embodied/             #   Embodied 模型（Pi0.5、GR00T）
│   │   └── common/               #   公共 Layer 与工具
│   ├── data/                     # 数据流水线（多模态、视频、DP 负载均衡）
│   ├── tokenizer/                # Tokenizer
│   └── utils/                    # 配置映射、常量等
├── third_party/Loong-Megatron/   # Patched Megatron-LM（git submodule）
├── configs/                      # Hydra YAML 配置（模型、数据）
├── examples/                     # GPU 启动脚本
├── examples_xpu/                 # 昆仑芯 XPU 启动脚本
├── tools/                        # Checkpoint 转换、数据预处理
├── ops/                          # 自定义融合算子（含开源的 TileLang 版本）
├── patches/                      # TransformerEngine 补丁
├── docker/                       # Dockerfile（GPU & XPU）
├── tests/                        # 端到端测试（YAML 驱动）
└── docs/                         # 文档

🤝 参与贡献

我们非常欢迎社区贡献 —— 无论是 Bug 报告、功能提案还是 PR。在提交前请阅读贡献指南。

📄 开源协议

LoongForge 基于 Apache License 2.0 发布。部分源文件改编自第三方开源项目，请以各文件头部标注的版权与署名信息为准。

📝 引用

@software{LoongForge2026,
  title  = {LoongForge: A modular, scalable, high-performance training framework for LLMs, VLMs, diffusion, and embodied models},
  author = {{The LoongForge Authors}},
  year   = {2026},
  url    = {https://github.com/baidu-baige/LoongForge}
}

🙏 致谢

LoongForge 构建于 NVIDIA 的 Megatron-LM 之上，同时也从 HuggingFace Transformers、LLaMA-Factory、Megatron-Bridge 等更多优秀开源项目中汲取了灵感。衷心感谢这些社区所做的杰出贡献。

💬 联系我们

欢迎通过 GitHub Issue 提交问题、反馈或功能建议，也可以加入我们的 Slack 社区，或扫描下方微信二维码加入开发者社区。