README_zh.md

March 26, 2026 · View on GitHub

LightCompress:迈向准确且高效的AIGC大模型压缩

llmc

License Ask DeepWiki arXiv Discord Banner QQ Doc Doc 

[ English | 中文 ]

📢 提示: 本仓库原名为 LLMC,现已更名为 LightCompress

LightCompress 是一个开箱即用的工具,专为压缩AIGC大模型(LLM, VLM, Diffusion ...)设计,利用最先进的压缩算法提高效率并减少模型体积,同时不影响预测精度。你可以通过以下命令下载可以运行LightCompress的docker镜像,中国大陆用户推荐使用阿里云docker。

# Docker Hub: https://hub.docker.com/r/llmcompression/llmc
docker pull llmcompression/llmc:pure-latest

# 阿里云镜像: registry.cn-hangzhou.aliyuncs.com/yongyang/llmcompression:[tag]
docker pull registry.cn-hangzhou.aliyuncs.com/yongyang/llmcompression:pure-latest

社区Discord 服务器腾讯 QQ 群

文档English中文

推荐 Python 版本:建议本地开发和安装使用 Python 3.11。这与项目的 Docker 镜像和 CI 配置保持一致,并且对当前依赖集合而言通常比 Python 3.12 更稳定。

:fire: 最新动态

  • 2025年8月13日: 🚀 我们已开源针对 视觉语言模型(VLMs) 的压缩方案,支持共计超过 20 种算法,涵盖 token reductionquantization。此次发布为多模态任务提供了灵活、即插即用的压缩策略。具体请参阅文档

  • 2025年5月12日: 🔥 我们现已全面支持 Wan2.1 系列视频生成模型的量化,并支持导出真实量化的 INT8/FP8 权重,兼容 lightx2v 推理框架。详情请参考 lightx2v 使用文档

  • 2025年2月7日: 🔥 我们现已全面支持 DeepSeekv3DeepSeek-R1DeepSeek-R1-zero 等 671B 大规模 MOE 模型的量化。 您可以直接加载 FP8 权重,无需额外转换,使用单张 80G 显存的 GPU 即可运行 AWQRTN 量化,同时还支持导出真实量化的 INT4/INT8 权重

  • 2024年11月20日: 🔥 我们现已全面支持✨DeepSeekv2(2.5)MOE模型以及✨Qwen2VLLlama3.2VLM模型的量化。支持的量化方案包括✅整型量化、✅浮点量化,以及✅AWQ、✅GPTQ、✅SmoothQuant 和 ✅Quarot 等先进算法。

  • 2024年11月12日: 🔥 我们新增对各种模型和算法的💥激活静态 per-tensor量化支持,涵盖✅整型量化和✅浮点量化,进一步优化性能和效率。同时支持导出✨真实量化模型,并使用 VLLMSGLang后端进行推理加速,具体请参阅VLLM文档SGLang文档

  • 2024年9月26日: 🔥 我们现在支持从🚀 LLMC导出💥 FP8 量化(E4M3,E5M2)模型到一些先进的推理后端,例如VLLMSGLang。关于详细使用方法,请参阅VLLM文档SGLang文档

更早动态
  • 2024年9月24日: 🔥 我们正式发布了 ✨Llama-3.1-405B 的 ✅INT4 和 ✅INT8 模型,这些模型通过 🚀LLMC 使用 save_lightllm 模式进行量化。你可以在此处下载模型参数。

  • 2024年9月23日: 🔥 我们现在支持从 🚀LLMC 导出 ✨真正量化的(INT4, INT8) 模型到先进推理后端,例如 VLLM, SGLang, AutoAWQ, 和 MLC-LLM 用于量化推理部署,从而实现 ✨减少内存使用 和 ✨加快推理速度。 详细使用方法,请参考 VLLM 文档SGLang 文档AutoAWQ 文档MLC-LLM 文档

  • 2024年9月9日: 🔥 我们提供了一些最佳实践配置,帮助提升性能(参见最佳实践此处)。

  • 2024年9月3日: 🔥 我们支持通过opencompass 评估 🚀LLMC 模型。请参考此文档试用!

  • 2024年8月22日: 🔥我们支持许多小型语言模型,包括当前SOTA的 SmolLM(参见支持的模型列表)。

  • 2024年8月22日: 🔥此外,我们还支持通过我们修改的 lm-evaluation-harness 进行下游任务评估 🤗。具体操作,用户可以先采用 save_trans 模式(参见 配置 中的 save 部分)保存权重修改后的模型。在获得转换模型后,可以直接参考 run_lm_eval.sh 对量化模型进行评估。更多细节请见此处

  • 2024年7月23日: 🍺🍺🍺 我们发布了全新的基准论文:

    LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit

    Ruihao Gong*, Yang Yong*, Shiqiao Gu*, Yushi Huang*, Chengtao Lv, Yunchen Zhang, Xianglong Liu📧, Dacheng Tao

    (* 表示同等贡献,📧 表示通讯作者。)

  • 2024年7月16日: 🔥我们现在支持 Wanda/Naive(幅度)进行 LLM 稀疏化和逐层混合比特量化!

  • 2024年7月14日: 🔥我们现在支持基于旋转的量化 QuaRot!

  • 2024年5月17日: 🚀 我们现在支持一些先进的大型模型,例如 LLaVA、Mixtral、LLaMA V3 和 Qwen V2。快来试试吧!

  • 2024年5月13日: 🍺🍺🍺 我们发布了量化基准论文:

    LLM-QBench: A Benchmark Towards the Best Practice for Post-training Quantization of Large Language Models

    Ruihao Gong*, Yang Yong*, Shiqiao Gu*, Yushi Huang*, Yunchen Zhang, Xianglong Liu📧, Dacheng Tao

    (* 表示同等贡献,📧 表示通讯作者。)

    comp

    我们模块化且公平地基准测试了量化技术,考虑了校准成本、推理效率和量化准确性。在多种模型和数据集上进行了近600次实验,得出了三个关于校准数据、算法管道和量化配置选择的有见地的结论。基于这些结论,设计了一种LLM后训练量化管道的最佳实践,以在各种场景下实现最佳的准确性和效率平衡。

  • 2024年3月7日: 🚀 我们发布了一个功能强大且高效的LLM压缩工具的量化部分。值得注意的是,我们的基准论文即将发布😊。

🚀 亮点功能

  • 💥综合算法支持: 提供广泛的 ✨SOTA压缩算法 支持,包括 ✅量化、✅混合精度量化 和 ✅稀疏化,同时保持与原始仓库一致的精度。我们还提供 ✨量化最佳实践(参见✨最佳实践 章节此处),确保最佳性能和效率。

  • 💥支持的格式: 支持 ✨量化(整型和浮点)和 ✨稀疏化,具体包括 ✅权重激活量化、✅权重量化、✅混合精度量化,以及 ✅结构化 和 ✅非结构化稀疏化。

  • 💥广泛模型支持: 支持多种 ✨LLM模型,包括 ✅LLama、✅Mistral、✅InternLM2、✅Qwen2 等,以及 ✅MOE(DeepSeekv3, Deepseek-R1) 和 ✅VLM(Llama3.2-vision, Qwen2-vl) 模型(参见支持的模型列表)。

  • 💥多后端兼容性: 无缝集成多个后端,增强部署灵活性。多种量化设置和模型格式兼容广泛的后端和硬件平台,例如 ✅VLLM、✅Sglang、✅LightLLM、✅MLC-LLM 和 ✅AutoAWQ,使其高度灵活(参见✨推理后端 章节 此处)。

  • 💥性能效率: 支持大规模LLM的量化,例如 ✨Llama3.1-405B 和 ✨DeepSeek-R1-671B,并可在 单个 A100/H100/H800 GPU 上评估 PPL。

⚙️ 快速上手

请参阅 🚀快速入门章节此处

:robot: 支持的模型

更多模型

您可参考 llmc/models/*.py 添加自定义模型。

:bus: 支持的后端

💡 支持的算法

量化

更多算法

剪枝

🤝 致谢

本项目参考了以下仓库:

更多相关实现

🌟 Star 历史

Star History Chart

✏️ 引用

如果您觉得本工具包或相关论文对您的研究有帮助,请引用:

@inproceedings{DBLP:conf/emnlp/GongYGHLZT024,
  author    = {Ruihao Gong and Yang Yong and Shiqiao Gu and Yushi Huang and Chengtao Lv and Yunchen Zhang and Dacheng Tao and Xianglong Liu},
  title     = {LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit},
  booktitle = {EMNLP (Industry Track)},
  year      = {2024},
  pages     = {132--152},
  url       = {https://aclanthology.org/2024.emnlp-industry.12}
}