README_zh.md

March 26, 2026 · View on GitHub

LightCompress：迈向准确且高效的AIGC大模型压缩

[ English | 中文 ]

📢 提示: 本仓库原名为 LLMC，现已更名为 LightCompress。

LightCompress 是一个开箱即用的工具，专为压缩AIGC大模型(LLM, VLM, Diffusion ...)设计，利用最先进的压缩算法提高效率并减少模型体积，同时不影响预测精度。你可以通过以下命令下载可以运行LightCompress的docker镜像，中国大陆用户推荐使用阿里云docker。

# Docker Hub: https://hub.docker.com/r/llmcompression/llmc
docker pull llmcompression/llmc:pure-latest

# 阿里云镜像: registry.cn-hangzhou.aliyuncs.com/yongyang/llmcompression:[tag]
docker pull registry.cn-hangzhou.aliyuncs.com/yongyang/llmcompression:pure-latest

社区： Discord 服务器、腾讯 QQ 群。

文档： English、中文。

推荐 Python 版本：建议本地开发和安装使用 Python 3.11。这与项目的 Docker 镜像和 CI 配置保持一致，并且对当前依赖集合而言通常比 Python 3.12 更稳定。

:fire: 最新动态

2025年8月13日: 🚀 我们已开源针对 视觉语言模型（VLMs） 的压缩方案，支持共计超过 20 种算法，涵盖 token reduction 和 quantization。此次发布为多模态任务提供了灵活、即插即用的压缩策略。具体请参阅文档。
2025年5月12日： 🔥 我们现已全面支持 Wan2.1 系列视频生成模型的量化，并支持导出真实量化的 INT8/FP8 权重，兼容 lightx2v 推理框架。详情请参考 lightx2v 使用文档。
2025年2月7日: 🔥 我们现已全面支持 DeepSeekv3、DeepSeek-R1 和 DeepSeek-R1-zero 等 671B 大规模 MOE 模型的量化。您可以直接加载 FP8 权重，无需额外转换，使用单张 80G 显存的 GPU 即可运行 AWQ 和 RTN 量化，同时还支持导出真实量化的 INT4/INT8 权重
2024年11月20日: 🔥 我们现已全面支持✨DeepSeekv2(2.5)等MOE模型以及✨Qwen2VL、Llama3.2等VLM模型的量化。支持的量化方案包括✅整型量化、✅浮点量化，以及✅AWQ、✅GPTQ、✅SmoothQuant 和 ✅Quarot 等先进算法。
2024年11月12日: 🔥 我们新增对各种模型和算法的💥激活静态 per-tensor量化支持，涵盖✅整型量化和✅浮点量化，进一步优化性能和效率。同时支持导出✨真实量化模型，并使用 VLLM和SGLang后端进行推理加速，具体请参阅VLLM文档和SGLang文档。
2024年9月26日: 🔥 我们现在支持从🚀 LLMC导出💥 FP8 量化（E4M3，E5M2）模型到一些先进的推理后端，例如VLLM和SGLang。关于详细使用方法，请参阅VLLM文档和SGLang文档。

更早动态

2024年9月24日: 🔥 我们正式发布了 ✨Llama-3.1-405B 的 ✅INT4 和 ✅INT8 模型，这些模型通过 🚀LLMC 使用 save_lightllm 模式进行量化。你可以在此处下载模型参数。
2024年9月23日: 🔥 我们现在支持从 🚀LLMC 导出 ✨真正量化的(INT4, INT8) 模型到先进推理后端，例如 VLLM, SGLang, AutoAWQ, 和 MLC-LLM 用于量化推理部署，从而实现 ✨减少内存使用 和 ✨加快推理速度。详细使用方法，请参考 VLLM 文档、SGLang 文档、AutoAWQ 文档和 MLC-LLM 文档。
2024年9月9日: 🔥 我们提供了一些最佳实践配置，帮助提升性能（参见最佳实践此处）。
2024年9月3日: 🔥 我们支持通过opencompass 评估 🚀LLMC 模型。请参考此文档试用！
2024年8月22日: 🔥我们支持许多小型语言模型，包括当前SOTA的 SmolLM(参见支持的模型列表)。
2024年8月22日: 🔥此外，我们还支持通过我们修改的 lm-evaluation-harness 进行下游任务评估 🤗。具体操作，用户可以先采用 save_trans 模式（参见配置中的 save 部分）保存权重修改后的模型。在获得转换模型后，可以直接参考 run_lm_eval.sh 对量化模型进行评估。更多细节请见此处。
2024年7月23日: 🍺🍺🍺 我们发布了全新的基准论文：

LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit。

Ruihao Gong*, Yang Yong*, Shiqiao Gu*, Yushi Huang*, Chengtao Lv, Yunchen Zhang, Xianglong Liu📧, Dacheng Tao

(* 表示同等贡献，📧 表示通讯作者。)
2024年7月16日: 🔥我们现在支持 Wanda/Naive（幅度）进行 LLM 稀疏化和逐层混合比特量化！
2024年7月14日: 🔥我们现在支持基于旋转的量化 QuaRot！
2024年5月17日: 🚀 我们现在支持一些先进的大型模型，例如 LLaVA、Mixtral、LLaMA V3 和 Qwen V2。快来试试吧！
2024年5月13日: 🍺🍺🍺 我们发布了量化基准论文：

LLM-QBench: A Benchmark Towards the Best Practice for Post-training Quantization of Large Language Models。

Ruihao Gong*, Yang Yong*, Shiqiao Gu*, Yushi Huang*, Yunchen Zhang, Xianglong Liu📧, Dacheng Tao

(* 表示同等贡献，📧 表示通讯作者。)

我们模块化且公平地基准测试了量化技术，考虑了校准成本、推理效率和量化准确性。在多种模型和数据集上进行了近600次实验，得出了三个关于校准数据、算法管道和量化配置选择的有见地的结论。基于这些结论，设计了一种LLM后训练量化管道的最佳实践，以在各种场景下实现最佳的准确性和效率平衡。
2024年3月7日: 🚀 我们发布了一个功能强大且高效的LLM压缩工具的量化部分。值得注意的是，我们的基准论文即将发布😊。

🚀 亮点功能

💥综合算法支持: 提供广泛的 ✨SOTA压缩算法 支持，包括 ✅量化、✅混合精度量化和 ✅稀疏化，同时保持与原始仓库一致的精度。我们还提供 ✨量化最佳实践（参见✨最佳实践 章节此处），确保最佳性能和效率。
💥支持的格式: 支持 ✨量化（整型和浮点）和 ✨稀疏化，具体包括 ✅权重激活量化、✅权重量化、✅混合精度量化，以及 ✅结构化和 ✅非结构化稀疏化。
💥广泛模型支持: 支持多种 ✨LLM模型，包括 ✅LLama、✅Mistral、✅InternLM2、✅Qwen2 等，以及 ✅MOE(DeepSeekv3, Deepseek-R1) 和 ✅VLM(Llama3.2-vision, Qwen2-vl) 模型（参见支持的模型列表）。
💥多后端兼容性: 无缝集成多个后端，增强部署灵活性。多种量化设置和模型格式兼容广泛的后端和硬件平台，例如 ✅VLLM、✅Sglang、✅LightLLM、✅MLC-LLM 和 ✅AutoAWQ，使其高度灵活（参见✨推理后端 章节此处）。
💥性能效率: 支持大规模LLM的量化，例如 ✨Llama3.1-405B 和 ✨DeepSeek-R1-671B，并可在 单个 A100/H100/H800 GPU 上评估 PPL。

⚙️ 快速上手

请参阅 🚀快速入门章节此处。

:robot: 支持的模型

✅ BLOOM
✅ LLaMA
✅ LLaMA V2
✅ StarCoder
✅ OPT

更多模型

✅ Falcon
✅ InternLM2
✅ Mistral
✅ LLaMA V3
✅ Mixtral
✅ Qwen V2
✅ LLaVA
✅ InternLM2.5
✅ StableLM
✅ Gemma2
✅ Phi2
✅ Phi 1.5
✅ MiniCPM
✅ SmolLM
✅ DeepSeekv2.5
✅ LLaMA V3.2 Vision
✅ Qwen MOE
✅ Qwen2-VL
✅ InternVL2

您可参考 llmc/models/*.py 添加自定义模型。

:bus: 支持的后端

✅ VLLM
✅ LightLLM
✅ Sglang
✅ MLC-LLM
✅ AutoAWQ

💡 支持的算法

量化

✅ Naive
✅ AWQ
✅ GPTQ
✅ SmoothQuant
✅ OS+

更多算法

✅ OmniQuant
✅ NormTweaking
✅ AdaDim
✅ QUIK
✅ SpQR
✅ DGQ
✅ OWQ
✅ LLM.int8()
✅ HQQ
✅ QuaRot
✅ SpinQuant (见此分支)
✅ TesseraQ

剪枝

✅ Naive(Magnitude)
✅ Wanda
✅ ShortGPT

🤝 致谢

本项目参考了以下仓库：

更多相关实现

🌟 Star 历史

✏️ 引用

如果您觉得本工具包或相关论文对您的研究有帮助，请引用：

@inproceedings{DBLP:conf/emnlp/GongYGHLZT024,
  author    = {Ruihao Gong and Yang Yong and Shiqiao Gu and Yushi Huang and Chengtao Lv and Yunchen Zhang and Dacheng Tao and Xianglong Liu},
  title     = {LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit},
  booktitle = {EMNLP (Industry Track)},
  year      = {2024},
  pages     = {132--152},
  url       = {https://aclanthology.org/2024.emnlp-industry.12}
}