README_zh.md

May 27, 2026 · View on GitHub

English | 中文

LoongForge

面向 LLM、VLM、Diffusion 与 Embodied 模型的模块化、可扩展、高性能训练框架。

文档 Blog License Slack WeChat

🚀 训练加速最高可达 5.04×  ·  🌐 原生支持 NVIDIA GPU 与昆仑芯 XPU

💡 为什么选择 LoongForge?

🐉 LoongForge 是百度百舸 Loong 开源系列的一员 —— 名字源于中国传统 龙舟,象征协同发力与破浪前行。

LoongForge 是面向 LLM、VLM、VLA 与 Diffusion 模型 的统一训练框架,覆盖 预训练(Pre-training)持续预训练(Continued Pre-training)SFT。基于 Megatron-LM 在 模型覆盖度训练性能硬件支持 三个维度做了深度系统性增强,相对主流开源训练方案有显著的性能提升

在开源之前,LoongForge 的前身是 AIAK-Training-LLM —— 百度百舸的训练加速栈,已在 教育计算机视觉Embodied AI 等多家企业客户的生产训练中落地,相对客户原有方案通常带来 30%~50% 加速,最大规模的生产训练任务达到 5,000+ XPU

🔥 最新动态

  • [2026/05]Wan 2.2 训练 加速 116%,并新增 CP(上下文并行)与数据 packing 策略支持。
  • [2026/05] ✨ 新增 Kimi K2.5 / K2.6 训练支持,并支持 INT4 / NVFP4 PTQ 量化能力。
  • [2026/05] 🎉 v0.1.0 —— LoongForge 首个正式版本发布。
  • [2026/05] 🌟 支持 LLaVA-OneVision-2.0 模型训练并协助其公开发布。
  • [2026/05] 🤖 扩展 VLA 模型覆盖,新增 GR00T N1.6;Pi0.5 与 GR00T 训练实现 60%+ 加速
  • [2026/04] 🧩 新增 MiniMax-M2.7 在 NVIDIA GPU 与昆仑芯 XPU 上的训练支持。
  • [2026/04] 🚀 LoongForge 源码在 GitHub 上正式公开。[blog]
  • [2026/05] 🌟 基于AIAK-Training-LLM(LoongForge 前身)支持 LLaVA-OneVision-1.5 模型训练并协助其公开发布。[blog]

⚡ 快速开始

完整的安装、教程与进阶使用请查阅文档 —— English · 中文

1. 安装 —— 可通过 Docker预构建镜像即将发布)或 源码构建

2. 启动你的第一个训练任务 —— 根据目标硬件与模态选择教程:

3. 深入探索 —— 浏览 configs/models/examples/ / examples_xpu/ 下的现成启动脚本。

✨ 核心特性

  • 🧩 灵活的多模态组合 —— 通过配置驱动的方式,将可互换的 ViT 与 LLM 组件自由组装为 VLM。
  • ⚡ 异构并行 —— 针对模型不同组件(如 ViT vs LLM)独立配置 TP / DP / 重计算策略,获得最优吞吐与显存占用。 [blog]
  • 🔀 Encoder-Decoder 解耦训练 —— 将 ViT 与 LLM 拆分为独立任务,消除 Encoder 带来的流水线气泡。
  • ⚖️ DP 负载均衡 —— 基于负载感知的数据重分发,缓解序列打包(sequence packing)不均衡问题,显著提升多节点扩展效率。 [blog]
  • 🚀 MoE 原生优化 —— All2All / 激活卸载 / 计算全链路重叠,在 DeepSeek-V3、Qwen3-MoE 等模型上相对上游 Megatron-LM 实现进一步显存降低
  • 🔬 自适应 FP8 训练 —— 面向 LLM 和 VLM 的端到端 FP8,支持标准 blockwise FP8;可选 自适应 模式根据 GEMM 形状与效率逐算子选择最佳精度。
  • 🔧 自定义融合算子 —— 为 DSA 类模型设计的 FusedDSA 等融合 Kernel —— TileLang 版本已开源,高性能 CUDA 版本在百度百舸平台提供。
  • 🔁 灵活的 Checkpoint 机制 —— 支持离线 Megatron ↔ HuggingFace 双向转换,以及在线原生 HF 加载/保存,全流程无格式壁垒。
  • 🧰 丰富的流水线与数据工具 —— 开箱即用的 Pretrain / MidTrain / SFT / LoRA 流水线,内置数据集格式转换与序列打包能力。
  • 🌐 异构硬件 —— 通过轻侵入式插件设计,原生支持 NVIDIA GPU昆仑芯 XPU

📖 深入阅读:LLM 特性 · VLM 特性

📊 性能 Benchmark

v0.1.1 版本上针对 LLM、VLM、VLA、DIT 四类工作负载,与主流开源训练方案的对比结果:

模型类型对比基线配置加速比
Qwen3-30B-A3BMoEMegatron-LM32 × A800 · GBS 1024 · 32K1.16×
DeepSeek-V3.2 Lite §MoE + DSAMegatron-LM减层配置 · GBS 128 · 8K 序列5.04×
Qwen3-VL-30B-A3BVLMVeOmni32 × A800 · GBS 128 · 32K1.45×
GR00T N1.6VLALeRobot8 × A800 · GBS 128 · 224×2242.31×
Pi0.5VLAOpenPI8 × A800 · GBS 112 · 224×2241.65×
Wan2.2DITDiffSynth8 × A800 · 480×832x492.16×

§ 受测试台规模限制,DeepSeek-V3.2 在减层配置下单独验证 —— LoongForge 的 DSA CUDA Kernel 优化 相对 Megatron-LM 仍带来 ~5× 加速,并可支持 64K 序列长度(基线在 8K 以上即 OOM)。
数据反映测量时对应基线的实现,后续可能随实现演进而变化。
更多硬件平台的验证将在后续版本中陆续推出。

🌟 基于 LoongForge 训练

  • LLaVA-OneVision-2.0 —— 新一代多模态模型,配套全新的 VideoCaption 和 Spatial 数据集。
  • LLaVA-OneVision-1.5 —— 面向多模态训练民主化的全开源框架。
  • Qianfan-VL —— 面向企业的领域增强视觉-语言模型,参数量覆盖 3B ~ 70B。

🏛️ 支持的模型

LoongForge 已支持 LLM、VLM、Diffusion 与 VLA 等多模态的广泛的 SOTA 模型

模态架构模型
LLMDeepSeek-V2deepseek-v2-lite, deepseek-v2
DeepSeek-V3deepseek-v3, deepseek-v32
LLaMA2llama2-7b, llama2-13b, llama2-70b
LLaMA3llama3-8b, llama3-70b
LLaMA3.1llama3.1-8b, llama3.1-70b, llama3.1-405b
Qwenqwen-1.8b → qwen-72b
Qwen1.5qwen1.5-0.5b → qwen1.5-72b
Qwen2qwen2-0.5b → qwen2-72b
Qwen2.5qwen2.5-0.5b → qwen2.5-72b
Qwen3qwen3-0.6b → qwen3-480b-a35b, qwen3-coder-30b-a3b
Qwen3-Nextqwen3-next-80b-a3b
MiniMaxminimax-m2.1, minimax-m2.5, minimax-m2.7
MIMOmimo-7b
GLMglm5
VLMQwen2.5-VLqwen2.5-vl-3b → qwen2.5-vl-72b
Qwen3-VLqwen3-vl-30b-a3b, qwen3-vl-235b-a22b
Qwen3.5qwen3.5-0.8b → qwen3.5-397b-a17b
Qwen3.6qwen3.6-27b, qwen3.6-35b-a3b
Kimi-K2.5kimi-k2.5, kimi-k2.6
ERNIE4.5-VLernie4.5vl-28b-a3b
LLaVA-OneVision-1.5llava-onevision-1.5-4b
InternVL2.5internvl2.5-8b → internvl2.5-78b
InternVL3.5internvl3.5-8b → internvl3.5-241b-a28b
CustomCombinedModelViT + LLM backbone 灵活组合(示例
DiffusionWAN2.2wan2.2_i2v_a14b
VLAPipi0.5
GR00Tgroot-n1.6

🚀 路线图

模型支持

  • LLM / VLM:持续验证与发布新模型(如 DeepSeek-V4)
  • Embodied AI:扩展 WAM 覆盖(如 DreamZero、LingBot VA)

性能与扩展性

  • 跟进 DeepSeek-V4 引入的下一代训练技术
  • 更先进的 MoE 负载均衡策略
  • 基于 ChunkPipe 调度与 Context Parallelism 的长序列训练
  • Diffusion 模型(如 WAN)进一步加速
  • INT4 量化感知训练(QAT)
  • MTP(Multi-Token Prediction)扩展,用于投机推理

🏗️ 代码结构

📁 目录树
LoongForge/
├── loongforge/                   # 核心训练框架
│   ├── train/                    # 训练入口与训练器
│   │   ├── pretrain/             #   预训练(LLM、VLM)
│   │   ├── sft/                  #   SFT(LLM、VLM、InternVL、ERNIE)
│   │   ├── diffusion/            #   Diffusion(WAN)
│   │   └── embodied/             #   Embodied AI(Pi0.5、GR00T)
│   ├── models/                   # 统一的模型抽象层
│   │   ├── foundation/           #   LLM 主干(LLaMA、Qwen、DeepSeek、...)
│   │   ├── encoder/              #   视觉编码器(ViT、Qwen-VL、InternVL、...)
│   │   ├── omni_models/          #   多模态组合
│   │   ├── diffusion/            #   Diffusion 模型(WAN)
│   │   ├── embodied/             #   Embodied 模型(Pi0.5、GR00T)
│   │   └── common/               #   公共 Layer 与工具
│   ├── data/                     # 数据流水线(多模态、视频、DP 负载均衡)
│   ├── tokenizer/                # Tokenizer
│   └── utils/                    # 配置映射、常量等
├── third_party/Loong-Megatron/   # Patched Megatron-LM(git submodule)
├── configs/                      # Hydra YAML 配置(模型、数据)
├── examples/                     # GPU 启动脚本
├── examples_xpu/                 # 昆仑芯 XPU 启动脚本
├── tools/                        # Checkpoint 转换、数据预处理
├── ops/                          # 自定义融合算子(含开源的 TileLang 版本)
├── patches/                      # TransformerEngine 补丁
├── docker/                       # Dockerfile(GPU & XPU)
├── tests/                        # 端到端测试(YAML 驱动)
└── docs/                         # 文档

🤝 参与贡献

我们非常欢迎社区贡献 —— 无论是 Bug 报告、功能提案还是 PR。在提交前请阅读 贡献指南

📄 开源协议

LoongForge 基于 Apache License 2.0 发布。部分源文件改编自第三方开源项目,请以各文件头部标注的版权与署名信息为准。

📝 引用

@software{LoongForge2026,
  title  = {LoongForge: A modular, scalable, high-performance training framework for LLMs, VLMs, diffusion, and embodied models},
  author = {{The LoongForge Authors}},
  year   = {2026},
  url    = {https://github.com/baidu-baige/LoongForge}
}

🙏 致谢

LoongForge 构建于 NVIDIA 的 Megatron-LM 之上,同时也从 HuggingFace Transformers、LLaMA-Factory、Megatron-Bridge 等更多优秀开源项目中汲取了灵感。衷心感谢这些社区所做的杰出贡献。

💬 联系我们

欢迎通过 GitHub Issue 提交问题、反馈或功能建议,也可以加入我们的 Slack 社区,或扫描下方微信二维码加入开发者社区。

LoongForge WeChat Community