小智各组件响应速度测试报告

April 27, 2026 · View on GitHub

一、报告概述

本报告汇总了小智语音助手核心模块在不同硬件和模型配置下的响应速度表现，旨在为内部项目团队提供最佳部署方案参考。

二、郑重声明

2.1、本报告为内部技术评估文档，仅供项目团队内部成员参考使用，由于测试方法还未做到高度严谨，测试过程还未做到高度透明，因此不具备权威评判性、不可作为正式商用的测试报告。 2.2、报告中所有测试结果均基于特定测试环境得出，实际部署效果可能因网络带宽、延迟、服务器负载、硬件配置等因素而产生显著差异。 2.3、本报告中的响应速度数据是在xiaozhi-esp32-serve代码框架下测试获得的，其结论和优化建议仅适用于该项目的技术架构和实现方式。将相同的配置或优化策略应用于其他项目时，可能无法达到预期效果，甚至可能引起兼容性问题。建议在实际应用前进行充分的验证测试。

三、报告结论

根据测试结果，我们可以得出以下结论：如果我的服务器在广东，为保证响应速度和体验效果，我应该选择模型组合是：

部署方式	ASR	LLM	TTS	指标
全本地化部署	FunASR (GPU模式)	qwen2.5-72b-instruct	IndexStream	ASR：平均处理时间 0.071秒/次 LLM：超长角色提示词下的首Token时间 0.601秒 TTS：平均首音时间 0.312秒/次
全API调用	讯飞 (XunfeiStreamASR)	阿里百炼(qwen-flash-2025-07-28)	火山流式 (HuoshanDoubleStreamTTS)	ASR：平均首词等待时间 0.795秒/次 LLM：超长角色提示词下的首Token时间 0.434秒 TTS：平均首音时间 0.317秒/次

四、报告明细

4.1 语音识别(ASR)响应速度对比

4.1.1 测试方法

测试方法	测试地点	测试时间	宽带运营商
点击查看	广东省广州市海珠区	2026年4月22日 14:01	中国联通

4.1.2 非流式测试结果

模型名称	指标名称	指标值
TencentASR	平均处理时间	0.542秒/次
BaiduASR	平均处理时间	0.923秒/次
DoubaoASR	平均处理时间	1.071秒/次
AliyunASR	平均处理时间	1.114秒/次

4.1.3 流式测试结果

模型名称	指标名称	指标值
XunfeiStreamASR	平均首词等待时间	0.795秒/次
DoubaoStreamASRV1	平均首词等待时间	0.852秒/次
DoubaoStreamASRV2	平均首词等待时间	0.864秒/次
AliyunStreamASR	平均首词等待时间	0.984秒/次
Qwen3ASRFlash	平均首词等待时间	1.023秒/次

4.2 大语言模型(LLM)响应速度对比

4.2.1 测试方法

测试方法	测试地点	测试时间	宽带运营商
点击查看	广东省广州市海珠区	2026年4月20日 14:15	中国联通

4.2.2 测试结果

模型名称	指标名称	指标值
qwen3-8b	小智超长角色提示词下的首Token时间	0.377秒
qwen-flash-2025-07-28	小智超长角色提示词下的首Token时间	0.434秒
qwen3.6-35b-a3b	小智超长角色提示词下的首Token时间	0.473秒
qwen3-max	小智超长角色提示词下的首Token时间	0.618秒
qwen3.6-flash	小智超长角色提示词下的首Token时间	0.626秒
qwen3-max-2026-01-23	小智超长角色提示词下的首Token时间	0.652秒
doubao-seed-2-0-mini-260215	小智超长角色提示词下的首Token时间	0.700秒
kimi-k2	小智超长角色提示词下的首Token时间	0.774秒
glm-4-flash	小智超长角色提示词下的首Token时间	0.782秒
qwen-plus-2025-12-01	小智超长角色提示词下的首Token时间	0.821秒
kimi-k2.5	小智超长角色提示词下的首Token时间	0.984秒
glm-5.1	小智超长角色提示词下的首Token时间	2.266秒
MiniMax-M2.7	小智超长角色提示词下的首Token时间	3.434秒

4.3 在云服务平台示例容器vllm搭建模型测试结果

4.3.1 测试方法

测试方法	部署方法	测试地点	测试时间	宽带运营商
点击查看	点击查看	广东省广州市海珠区	2025年9月30日 10:11	中国联通

4.3.2 测试结果

模型名称	部署设备	指标名称	指标值
qwen2.5-72b-instruct	4张A800显卡	小智超长角色提示词下的首Token时间	0.601秒

4.3 语音合成模型(TTS)响应速度对比

4.3.1 测试方法

测试方法	测试地点	测试时间	宽带运营商
点击查看	广东省广州市海珠区	2025年9月30日 10:33	中国联通

4.3.2 非流式测试结果

模型名称	指标名称	指标值
CosyVoiceSiliconflow-Small	平均处理时间	0.103秒/次
AliyunTTS	平均处理时间	0.322秒/次
DoubaoTTS	平均处理时间	0.327秒/次
TencentTTS	平均处理时间	0.365秒/次
CosyVoiceSiliconflow）	平均处理时间	0.488秒/次
MinimaxTTSHTTPStream	平均处理时间	0.662秒/次
EdgeTTS	平均处理时间	0.667秒/次
CozeCnTTS	平均处理时间	0.751秒/次
TTS302AI	平均处理时间	1.785秒/次

4.3.3 流式测试结果

模型名称	指标名称	指标值
PaddleSpeechTTS(本地部署)	平均首音时间	0.103秒/次
XunFeiTTS	平均首音时间	0.253秒/次
IndexStream	平均首音时间	0.312秒/次
HuoshanDoubleStreamTTS	平均首音时间	0.317秒/次
Linkerai	平均首音时间	0.455秒/次
AliyunStreamTTS	平均首音时间	0.712秒/次

4.4 视觉分析模型(Vllm)响应速度对比

4.4.1 测试方法

测试方法	测试地点	测试时间	宽带运营商
点击查看	广东省广州市海珠区	2026年4月16日 14:10	中国联通

4.4.2 测试结果

模型名称	指标名称	指标值
glm-4v-flash	平均响应时间	2.634秒
qwen3-vl-flash-2025-10-15	平均响应时间	3.035秒
qwen3.5-35b-a3b	平均响应时间	6.382秒
qwen3-vl-flash-2026-01-22	平均响应时间	6.405秒
glm-5v-turbo	平均响应时间	7.774秒
kimi-k2.5	平均响应时间	9.549秒
qwen3-vl-plus-2025-09-23	平均响应时间	10.764秒
qwen3.5-flash-2026-02-23	平均响应时间	12.549秒
qwen3-vl-plus-2025-12-19	平均响应时间	13.922秒