小智各组件响应速度测试报告

April 27, 2026 · View on GitHub

一、报告概述

本报告汇总了小智语音助手核心模块在不同硬件和模型配置下的响应速度表现,旨在为内部项目团队提供最佳部署方案参考。

二、郑重声明

2.1、本报告为内部技术评估文档,仅供项目团队内部成员参考使用,由于测试方法还未做到高度严谨,测试过程还未做到高度透明,因此不具备权威评判性、不可作为正式商用的测试报告。 2.2、报告中所有测试结果均基于特定测试环境得出,实际部署效果可能因网络带宽、延迟、服务器负载、硬件配置等因素而产生显著差异。 2.3、本报告中的响应速度数据是在xiaozhi-esp32-serve代码框架下测试获得的,其结论和优化建议仅适用于该项目的技术架构和实现方式。将相同的配置或优化策略应用于其他项目时,可能无法达到预期效果,甚至可能引起兼容性问题。建议在实际应用前进行充分的验证测试。

三、报告结论

根据测试结果,我们可以得出以下结论:如果我的服务器在广东,为保证响应速度和体验效果,我应该选择模型组合是:

部署方式ASRLLMTTS指标
全本地化部署FunASR (GPU模式)qwen2.5-72b-instructIndexStreamASR:平均处理时间 0.071秒/次
LLM:超长角色提示词下的首Token时间 0.601秒
TTS:平均首音时间 0.312秒/次
全API调用讯飞 (XunfeiStreamASR)阿里百炼(qwen-flash-2025-07-28)火山流式 (HuoshanDoubleStreamTTS)ASR:平均首词等待时间 0.795秒/次
LLM:超长角色提示词下的首Token时间 0.434秒
TTS:平均首音时间 0.317秒/次

四、报告明细

4.1 语音识别(ASR)响应速度对比

4.1.1 测试方法

测试方法测试地点测试时间宽带运营商
点击查看广东省广州市海珠区2026年4月22日 14:01中国联通

4.1.2 非流式测试结果

模型名称指标名称指标值
TencentASR平均处理时间0.542秒/次
BaiduASR平均处理时间0.923秒/次
DoubaoASR平均处理时间1.071秒/次
AliyunASR平均处理时间1.114秒/次

4.1.3 流式测试结果

模型名称指标名称指标值
XunfeiStreamASR平均首词等待时间0.795秒/次
DoubaoStreamASRV1平均首词等待时间0.852秒/次
DoubaoStreamASRV2平均首词等待时间0.864秒/次
AliyunStreamASR平均首词等待时间0.984秒/次
Qwen3ASRFlash平均首词等待时间1.023秒/次

4.2 大语言模型(LLM)响应速度对比

4.2.1 测试方法

测试方法测试地点测试时间宽带运营商
点击查看广东省广州市海珠区2026年4月20日 14:15中国联通

4.2.2 测试结果

模型名称指标名称指标值
qwen3-8b小智超长角色提示词下的首Token时间0.377秒
qwen-flash-2025-07-28小智超长角色提示词下的首Token时间0.434秒
qwen3.6-35b-a3b小智超长角色提示词下的首Token时间0.473秒
qwen3-max小智超长角色提示词下的首Token时间0.618秒
qwen3.6-flash小智超长角色提示词下的首Token时间0.626秒
qwen3-max-2026-01-23小智超长角色提示词下的首Token时间0.652秒
doubao-seed-2-0-mini-260215小智超长角色提示词下的首Token时间0.700秒
kimi-k2小智超长角色提示词下的首Token时间0.774秒
glm-4-flash小智超长角色提示词下的首Token时间0.782秒
qwen-plus-2025-12-01小智超长角色提示词下的首Token时间0.821秒
kimi-k2.5小智超长角色提示词下的首Token时间0.984秒
glm-5.1小智超长角色提示词下的首Token时间2.266秒
MiniMax-M2.7小智超长角色提示词下的首Token时间3.434秒

4.3 在云服务平台示例容器vllm搭建模型测试结果

4.3.1 测试方法

测试方法部署方法测试地点测试时间宽带运营商
点击查看点击查看广东省广州市海珠区2025年9月30日 10:11中国联通

4.3.2 测试结果

模型名称部署设备指标名称指标值
qwen2.5-72b-instruct4张A800显卡小智超长角色提示词下的首Token时间0.601秒

4.3 语音合成模型(TTS)响应速度对比

4.3.1 测试方法

测试方法测试地点测试时间宽带运营商
点击查看广东省广州市海珠区2025年9月30日 10:33中国联通

4.3.2 非流式测试结果

模型名称指标名称指标值
CosyVoiceSiliconflow-Small平均处理时间0.103秒/次
AliyunTTS平均处理时间0.322秒/次
DoubaoTTS平均处理时间0.327秒/次
TencentTTS平均处理时间0.365秒/次
CosyVoiceSiliconflow)平均处理时间0.488秒/次
MinimaxTTSHTTPStream平均处理时间0.662秒/次
EdgeTTS平均处理时间0.667秒/次
CozeCnTTS平均处理时间0.751秒/次
TTS302AI平均处理时间1.785秒/次

4.3.3 流式测试结果

模型名称指标名称指标值
PaddleSpeechTTS(本地部署)平均首音时间0.103秒/次
XunFeiTTS平均首音时间0.253秒/次
IndexStream平均首音时间0.312秒/次
HuoshanDoubleStreamTTS平均首音时间0.317秒/次
Linkerai平均首音时间0.455秒/次
AliyunStreamTTS平均首音时间0.712秒/次

4.4 视觉分析模型(Vllm)响应速度对比

4.4.1 测试方法

测试方法测试地点测试时间宽带运营商
点击查看广东省广州市海珠区2026年4月16日 14:10中国联通

4.4.2 测试结果

模型名称指标名称指标值
glm-4v-flash平均响应时间2.634秒
qwen3-vl-flash-2025-10-15平均响应时间3.035秒
qwen3.5-35b-a3b平均响应时间6.382秒
qwen3-vl-flash-2026-01-22平均响应时间6.405秒
glm-5v-turbo平均响应时间7.774秒
kimi-k2.5平均响应时间9.549秒
qwen3-vl-plus-2025-09-23平均响应时间10.764秒
qwen3.5-flash-2026-02-23平均响应时间12.549秒
qwen3-vl-plus-2025-12-19平均响应时间13.922秒