Evaluierungssuite für Große Multimodale Modelle

February 28, 2026 · View on GitHub

Evaluierungssuite für Große Multimodale Modelle

PyPI - Downloads

Beschleunigung der Entwicklung großer multimodaler Modelle (LMMs) mit lmms-eval. Wir unterstützen die meisten Text-, Bild-, Video- und Audio-Aufgaben.

🏠 LMMs-Lab Homepage | 🤗 Huggingface Datensätze | discord/lmms-eval

📖 Unterstützte Aufgaben (100+) | 🌟 Unterstützte Modelle (30+) | 📚 Dokumentation

Was ist neu?

Die Evaluierung multimodaler Modelle ist schwieriger, als es aussieht. Wir haben hunderte von Benchmarks, aber keinen Standardweg, um sie auszuführen. Die Ergebnisse variieren zwischen den Laboren. Vergleiche werden unzuverlässig. Wir haben daran gearbeitet, dies zu beheben – nicht durch heldenhaften Einsatz, sondern durch systematische Prozesse.

Januar 2026 – Wir haben erkannt, dass räumliches und kompositionelles Denken blinde Flecken in bestehenden Benchmarks blieben. Wir haben CaptionQA, SpatialTreeBench, SiteBench und ViewSpatial hinzugefügt. Für Teams, die Remote-Evaluierungs-Pipelines betreiben, haben wir einen HTTP-Eval-Server eingeführt (#972). Für diejenigen, die statistische Strenge benötigen, haben wir CLT und Clustered Standard Error Estimation hinzugefügt (#989).

Oktober 2025 (v0.5) – Audio war eine Lücke. Modelle konnten hören, aber wir hatten keinen konsistenten Weg, sie zu testen. Dieses Release fügte eine umfassende Audio-Evaluierung, Response-Caching für Effizienz und über 50 Benchmark-Varianten hinzu, die Audio, Vision und Reasoning abdecken. Release Notes.

Nachfolgend finden Sie eine chronologische Liste der jüngsten Aufgaben, Modelle und Funktionen, die von unseren großartigen Mitwirkenden hinzugefügt wurden.

[2025-01] 🎓🎓 Wir haben unseren neuen Benchmark veröffentlicht: Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos. Weitere Details finden Sie auf der Projektseite.
[2024-12] 🎉🎉 Wir haben gemeinsam mit dem MME-Team und dem OpenCompass-Team den MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs vorgestellt.
[2024-11] 🔈🔊 lmms-eval/v0.3.0 wurde aktualisiert, um Audio-Evaluierungen für Audio-Modelle wie Qwen2-Audio und Gemini-Audio über Aufgaben wie AIR-Bench, Clotho-AQA, LibriSpeech und mehr hinweg zu unterstützen. Weitere Details finden Sie im Blog!
[2024-10] 🎉🎉 Wir begrüßen die neue Aufgabe NaturalBench, ein visionszentrierter VQA-Benchmark (NeurIPS'24), der Vision-Language-Modelle mit einfachen Fragen zu natürlichen Bildern herausfordert.
[2024-10] 🎉🎉 Wir begrüßen die neue Aufgabe TemporalBench für feingliedriges temporäres Verständnis und Schlussfolgern für Videos, die eine riesige (>30%) Lücke zwischen Mensch und KI aufdeckt.

Warum `lmms-eval`?

Wir befinden uns auf einer aufregenden Reise zur Schaffung Künstlicher Allgemeiner Intelligenz (AGI), ähnlich wie die Begeisterung der Mondlandung in den 1960er Jahren. Diese Reise wird von fortschrittlichen großen Sprachmodellen (LLMs) und großen multimodalen Modellen (LMMs) angetrieben, komplexen Systemen, die in der Lage sind, eine Vielzahl menschlicher Aufgaben zu verstehen, zu lernen und auszuführen.

Um zu messen, wie fortschrittlich diese Modelle sind, verwenden wir verschiedene Evaluierungs-Benchmarks. Diese Benchmarks sind Werkzeuge, die uns helfen, die Fähigkeiten dieser Modelle zu verstehen und zeigen, wie nah wir der Erreichung von AGI sind. Das Finden und Verwenden dieser Benchmarks ist jedoch eine große Herausforderung.

Im Bereich der Sprachmodelle hat die Arbeit von lm-evaluation-harness einen wertvollen Präzedenzfall geschaffen. Wir haben das exquisite und effiziente Design von lm-evaluation-harness aufgenommen und lmms-eval eingeführt, ein sorgfältig entwickeltes Evaluierungs-Framework für konsistente und effiziente Evaluierung von LMM.

Installation

Verwendung von uv (Empfohlen für konsistente Umgebungen)

Wir verwenden uv für die Paketverwaltung, um sicherzustellen, dass alle Entwickler exakt dieselben Paketversionen verwenden. Installieren Sie zunächst uv:

curl -LsSf https://astral.sh/uv/install.sh | sh

Für die Entwicklung mit konsistenter Umgebung:

git clone https://github.com/EvolvingLMMs-Lab/lmms-eval
cd lmms-eval
# Empfohlen
uv pip install -e ".[all]"
# Wenn Sie uv sync verwenden möchten
# uv sync  # Dies erstellt/aktualisiert Ihre Umgebung aus uv.lock

Um Befehle auszuführen:

uv run python -m lmms_eval --help  # Beliebigen Befehl mit uv run ausführen

Alternative Installation

Für direkte Verwendung von Git:

uv venv eval
uv venv --python 3.12
source eval/bin/activate
# Möglicherweise müssen Sie Ihre eigene Task-YAML hinzufügen und einbinden, wenn Sie diese Installation verwenden
uv pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git

Verwendung

Weitere Beispiele in examples/models

Evaluierung eines OpenAI-kompatiblen Modells

bash examples/models/openai_compatible.sh
bash examples/models/xai_grok.sh

Evaluierung von vLLM

bash examples/models/vllm_qwen2vl.sh

Evaluierung von LLaVA-OneVision

bash examples/models/llava_onevision.sh

Evaluierung von LLaVA-OneVision1_5

bash examples/models/llava_onevision1_5.sh

Evaluierung von LLaMA-3.2-Vision

bash examples/models/llama_vision.sh

Evaluierung von Qwen2-VL

bash examples/models/qwen2_vl.sh
bash examples/models/qwen2_5_vl.sh

Evaluierung von LLaVA auf MME

Wenn Sie LLaVA 1.5 testen möchten, müssen Sie deren Repository von LLaVA klonen und

bash examples/models/llava_next.sh

Evaluierung mit Tensor Parallel für größere Modelle (llava-next-72b)

bash examples/models/tensor_parallel.sh

Evaluierung mit SGLang für größere Modelle (llava-next-72b)

bash examples/models/sglang.sh

Evaluierung mit vLLM für größere Modelle (llava-next-72b)

bash examples/models/vllm_qwen2vl.sh

Weitere Parameter

python3 -m lmms_eval --help

Umgebungsvariablen Bevor Sie Experimente und Evaluierungen durchführen, empfehlen wir Ihnen, die folgenden Umgebungsvariablen in Ihre Umgebung zu exportieren. Einige sind für die Ausführung bestimmter Aufgaben erforderlich.

export OPENAI_API_KEY="<YOUR_API_KEY>"
export HF_HOME="<Path to HF cache>" 
export HF_TOKEN="<YOUR_API_KEY>"
export HF_HUB_ENABLE_HF_TRANSFER="1"
export REKA_API_KEY="<YOUR_API_KEY>"
# Weitere mögliche Umgebungsvariablen sind 
# ANTHROPIC_API_KEY, DASHSCOPE_API_KEY etc.

Häufige Umgebungsprobleme

Manchmal treten häufige Probleme auf, zum Beispiel Fehler im Zusammenhang mit httpx oder protobuf. Um diese Probleme zu lösen, können Sie zunächst versuchen:

python3 -m pip install httpx==0.23.3;
python3 -m pip install protobuf==3.20;
# Wenn Sie numpy==2.x verwenden, kann dies manchmal Fehler verursachen
python3 -m pip install numpy==1.26;
# Manchmal ist sentencepiece erforderlich, damit der Tokenizer funktioniert
python3 -m pip install sentencepiece;

@misc{zhang2024lmmsevalrealitycheckevaluation,
      title={LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models}, 
      author={Kaichen Zhang and Bo Li and Peiyuan Zhang and Fanyi Pu and Joshua Adrian Cahyono and Kairui Hu and Shuai Liu and Yuanhan Zhang and Jingkang Yang and Chunyuan Li and Ziwei Liu},
      year={2024},
      eprint={2407.12772},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.12772}, 
}

@misc{lmms_eval2024,
    title={LMMs-Eval: Accelerating the Development of Large Multimoal Models},
    url={https://github.com/EvolvingLMMs-Lab/lmms-eval},
    author={Bo Li*, Peiyuan Zhang*, Kaichen Zhang*, Fanyi Pu*, Xinrun Du, Yuhao Dong, Haotian Liu, Yuanhan Zhang, Ge Zhang, Chunyuan Li and Ziwei Liu},
    publisher    = {Zenodo},
    version      = {v0.1.0},
    month={March},
    year={2024}
}

Evaluierungssuite für Große Multimodale Modelle

Evaluierungssuite für Große Multimodale Modelle

Was ist neu?

Warum `lmms-eval`?

Installation

Verwendung von uv (Empfohlen für konsistente Umgebungen)

Alternative Installation

Verwendung

Benutzerdefiniertes Modell und Datensatz Hinzufügen

Danksagungen

Zitierung