模型测速

June 14, 2023 · View on GitHub

测试方法

考虑到 alpaca 和 LLaMa 的推理过程相同，且中文版仅仅是权重做了调整。我们仅测试 alpaca 中文版和 ChatGLM，结果适用英文模型。

alpaca 结果

硬件 11th Gen Intel(R) Core(TM) i7-11700 @ 2.50GHz

模型生成速度(token/s) 线程数
chinese-alpaca-7b-q4 3.2 1
chinese-alpaca-7b-q4 9.2 4
chinese-alpaca-7b-q4 10 8
chinese-alpaca-7b-q4 9.8 16
硬件 AMD EPYC 7742 64-Core @ 2.25GHz

模型生成速度(token/s) 线程数
chinese-alpaca-7b-q4 2.3 1
chinese-alpaca-7b-q4 7.3 4
chinese-alpaca-7b-q4 10.5 8
chinese-alpaca-7b-q4 10.7 16
chinese-alpaca-7b-q4 11.2 32
chinese-alpaca-7b-q4 12.7 64

ChatGLM 结果

硬件 11th Gen Intel(R) Core(TM) i7-11700 @ 2.50GHz

模型生成速度(token/s) 线程数
chatglm-q4 3.2 1
chatglm-q4 8.0 4
chatglm-q4 8.9 8
chatglm-q4 7.3 16
硬件 AMD EPYC 7742 64-Core @ 2.25GHz

模型生成速度(token/s) 线程数
chatglm-q4 2.4 1
chatglm-q4 5.8 4
chatglm-q4 8.9 8
chatglm-q4 9.1 16
chatglm-q4 11.6 32
chatglm-q4 11.7 64