模型测速

June 14, 2023 · View on GitHub

测试方法

考虑到 alpaca 和 LLaMa 的推理过程相同,且中文版仅仅是权重做了调整。我们仅测试 alpaca 中文版和 ChatGLM,结果适用英文模型。

alpaca 结果

  1. 硬件 11th Gen Intel(R) Core(TM) i7-11700 @ 2.50GHz

    模型生成速度(token/s)线程数
    chinese-alpaca-7b-q43.21
    chinese-alpaca-7b-q49.24
    chinese-alpaca-7b-q4108
    chinese-alpaca-7b-q49.816
  2. 硬件 AMD EPYC 7742 64-Core @ 2.25GHz

    模型生成速度(token/s)线程数
    chinese-alpaca-7b-q42.31
    chinese-alpaca-7b-q47.34
    chinese-alpaca-7b-q410.58
    chinese-alpaca-7b-q410.716
    chinese-alpaca-7b-q411.232
    chinese-alpaca-7b-q412.764

ChatGLM 结果

  1. 硬件 11th Gen Intel(R) Core(TM) i7-11700 @ 2.50GHz

    模型生成速度(token/s)线程数
    chatglm-q43.21
    chatglm-q48.04
    chatglm-q48.98
    chatglm-q47.316
  2. 硬件 AMD EPYC 7742 64-Core @ 2.25GHz

    模型生成速度(token/s)线程数
    chatglm-q42.41
    chatglm-q45.84
    chatglm-q48.98
    chatglm-q49.116
    chatglm-q411.632
    chatglm-q411.764