WeMM

July 4, 2024 · View on GitHub

Wemm 是 WeChatCV 推出的最新一代多模态大语言模型。WeMM 具备动态高分辨率图片下的中英双语对话能力，在多模态大语言模型的榜单中是百亿参数级别最强模型，整体测评结果（Avg Rank）位居第一梯队 (vlm_leaderboard)。

模型仓库

视觉大语言模型

模型	日期	下载	摘要
WeMM-Chat-2K-CN	2024.06.27	🤗 HF link	🚀🚀支持2K分辨率的图片输入
WeMM-Chat-CN	2024.06.21	🤗 HF link	🚀🚀加强了中英双语对话能力
WeMM-1.2（VL）	2024.06.09	🤗 HF link	🚀🚀在多模态大语言模型全部基准测试中的百亿参数模型里排名第一

多模态能力

WeMM 是一个多模态语言模型，具备中英文双语对话能力，其相关经典任务的评测结果如下：

Method	Param(B)	Avg Score	Avg Rank	MMBench_V11	MMStar	MMMU_VAL	MathVista	OCRBench	AI2D	HallusionBench	MMVet	MME	SEEDBench_IMG	POPE	RealWorldQA	ScienceQA_TEST	CCBench	LLaVABench
GPT-4o,20240513,high				82.8	61.6	62.8	56.5	663	82.2	51.7	66.5	2328.7	76.4		68.6		70.6	97.2
GPT-4v, 20240409,high				79.8	56	61.7	54.7	656	78.6	43.9	67.5	2070.2	73		68		57.3	99.8
WeMM	7	65.1	13.73	75.7	57	45.3	54.9	628	77.9	47.5	45	2150.1	75.9	86.7	68.1	83.3	48	70.9
MiniCPM_Llama3-v2.5	8	65.8	14.2	72	51.8	45.8	54.3	725	78.4	42.4	52.8	2024.6	72.3	86.7	63.5	89.2	45.9	86.7
InternLM-XComposer2-VL	7	65	15.33	77.6	56.2	41.4	59.5	532	81.2	41	46.7	2220.4	74.9	83	63.8	96.7	48.2	72.6
Qwen-VL-Max		65.3	16.73	74.6	49.5	52	43.4	684	75.7	41.2	61.8	2281.7	72.7	71.9	61.3	80	63.5	82.3
Mini-InternVL-Chat-4B-V1.5	4	64	18.53	69.7	53.1	45.1	54.6	639	77	43	43.6	2079.2	72.2	81.4	60.8	92.6	59.4	68.6
IDEFICS2-8B	8	58.9	27	68.9	49.5	45.2	52.2	626	72.3	39.1	34	1847.6	71.9	86.2	60.7	88.7	37.6	49.1
Qwen-VL-Plus		59.7	28.87	66.2	39.7	39.8	37.6	726	65.7	40.6	55.7	2229.8	65.7	85.4	44.6	73.4	55.1	73.7
Phi-3-Vision	4.2	58.3	29.27	65.2	47.7	46.1	44.6	637	78.4	39	44.1	1508	70.9	83.7	58.8	90	24.1	63.9
Mini-InternVL-Chat-2B-V1.5	2	58.9	29.73	65.2	46.7	37.4	41.3	652	69.7	37.3	35.5	1906.1	69.5	85.4	57.9	84.8	62.9	57.3

WeMM在全部的BenchMark测评中，由于不同BenchMark的分数分布差异较大，我们使用综合平均排名（Avg Rank）作为主性能参考指标。在百亿参数级别的模型中WeMM位列第一，在全部的MLLM中也位于第一梯队。

模型参数量小于20B	所有的视觉大语言模型

环境要求

transformers<=4.40.0 (and >=4.38.0)
python >= 3.8
torch >= 2.0.0
flash-attn
numpy==1.23.5
sentencepiece==0.1.99
ninja==1.11.1
wheel
cos-python-sdk-v5
peft
einops

详细要求查看 requirements.txt

运行模型

欢迎前往我们的github查看更多执行代码。

运行WeMM-1.2（VL）

import torch
from PIL import Image
from transformers import AutoModel, GenerationConfig

model_path = 'feipengma/WeMM' # the path to the model 
wemm = AutoModel.from_pretrained(model_path, torch_dtype=torch.bfloat16, trust_remote_code=True)
wemm.cuda()
wemm.eval()

query = '描述这张图片'
image = 'path/to/your/image'
pred = wemm.mm_generate(image, query)

运行WeMM-Chat-CN

import torch
from PIL import Image
from transformers import AutoModel, GenerationConfig

model_path = 'feipengma/WeMM-Chat-CN'
wemm = AutoModel.from_pretrained(model_path, torch_dtype=torch.bfloat16, trust_remote_code=True)
wemm.cuda()
wemm.eval()

query = '为什么海水是蓝色的？'
image = 'path/to/your/image'
pred = wemm.mm_generate(image, query)

运行WeMM-Chat-2K-CN

import torch
from PIL import Image
from transformers import AutoModel, GenerationConfig

model_path = 'feipengma/WeMM-Chat-2k-CN'
wemm = AutoModel.from_pretrained(model_path, torch_dtype=torch.bfloat16, trust_remote_code=True)
wemm.cuda()
wemm.eval()

query = '为什么海水是蓝色的？'
image = 'path/to/your/image'
pred = wemm.mm_generate(image, query)

示例

See the English example in [📖English Version]

示例1

输入图片	对话实例

示例2

输入图片	对话实例

示例3

输入图片	对话实例

示例4

输入图片	对话实例

致谢

在WeMM的研究中，我们参考并使用了Idefics2中融入了navit980结构的base vision backbone代码，以及Internlm2的LLM框架。非常感谢Idefics2和InternLM2的杰出工作。

License

本项目基于 MIT license 开发. 部分代码和模型源于其它项目并遵守他们的应用准则。

主要参与单位

腾讯WechatCV Team
浙江大学

最新消息 🚀🚀🚀