一、报告概述
本报告汇总了小智语音助手核心模块在不同硬件和模型配置下的响应速度表现,旨在为内部项目团队提供最佳部署方案参考。
二、郑重声明
2.1、本报告为内部技术评估文档,仅供项目团队内部成员参考使用,由于测试方法还未做到高度严谨,测试过程还未做到高度透明,因此不具备权威评判性、不可作为正式商用的测试报告。
2.2、报告中所有测试结果均基于特定测试环境得出,实际部署效果可能因网络带宽、延迟、服务器负载、硬件配置等因素而产生显著差异。
2.3、本报告中的响应速度数据是在xiaozhi-esp32-serve代码框架下测试获得的,其结论和优化建议仅适用于该项目的技术架构和实现方式。将相同的配置或优化策略应用于其他项目时,可能无法达到预期效果,甚至可能引起兼容性问题。建议在实际应用前进行充分的验证测试。
三、报告结论
根据测试结果,我们可以得出以下结论:如果我的服务器在广东,为保证响应速度和体验效果,我应该选择模型组合是:
| 部署方式 | ASR | LLM | TTS | 指标 |
|---|
| 全本地化部署 | FunASR (GPU模式) | qwen2.5-72b-instruct | IndexStream | ASR:平均处理时间 0.071秒/次 LLM:超长角色提示词下的首Token时间 0.601秒 TTS:平均首音时间 0.312秒/次 |
| 全API调用 | 讯飞 (XunfeiStreamASR) | 阿里百炼(qwen-flash-2025-07-28) | 火山流式 (HuoshanDoubleStreamTTS) | ASR:平均首词等待时间 0.795秒/次 LLM:超长角色提示词下的首Token时间 0.434秒 TTS:平均首音时间 0.317秒/次 |
四、报告明细
| 测试方法 | 测试地点 | 测试时间 | 宽带运营商 |
|---|
| 点击查看 | 广东省广州市海珠区 | 2026年4月22日 14:01 | 中国联通 |
| 模型名称 | 指标名称 | 指标值 |
|---|
| TencentASR | 平均处理时间 | 0.542秒/次 |
| BaiduASR | 平均处理时间 | 0.923秒/次 |
| DoubaoASR | 平均处理时间 | 1.071秒/次 |
| AliyunASR | 平均处理时间 | 1.114秒/次 |
| 模型名称 | 指标名称 | 指标值 |
|---|
| XunfeiStreamASR | 平均首词等待时间 | 0.795秒/次 |
| DoubaoStreamASRV1 | 平均首词等待时间 | 0.852秒/次 |
| DoubaoStreamASRV2 | 平均首词等待时间 | 0.864秒/次 |
| AliyunStreamASR | 平均首词等待时间 | 0.984秒/次 |
| Qwen3ASRFlash | 平均首词等待时间 | 1.023秒/次 |
| 测试方法 | 测试地点 | 测试时间 | 宽带运营商 |
|---|
| 点击查看 | 广东省广州市海珠区 | 2026年4月20日 14:15 | 中国联通 |
| 模型名称 | 指标名称 | 指标值 |
|---|
| qwen3-8b | 小智超长角色提示词下的首Token时间 | 0.377秒 |
| qwen-flash-2025-07-28 | 小智超长角色提示词下的首Token时间 | 0.434秒 |
| qwen3.6-35b-a3b | 小智超长角色提示词下的首Token时间 | 0.473秒 |
| qwen3-max | 小智超长角色提示词下的首Token时间 | 0.618秒 |
| qwen3.6-flash | 小智超长角色提示词下的首Token时间 | 0.626秒 |
| qwen3-max-2026-01-23 | 小智超长角色提示词下的首Token时间 | 0.652秒 |
| doubao-seed-2-0-mini-260215 | 小智超长角色提示词下的首Token时间 | 0.700秒 |
| kimi-k2 | 小智超长角色提示词下的首Token时间 | 0.774秒 |
| glm-4-flash | 小智超长角色提示词下的首Token时间 | 0.782秒 |
| qwen-plus-2025-12-01 | 小智超长角色提示词下的首Token时间 | 0.821秒 |
| kimi-k2.5 | 小智超长角色提示词下的首Token时间 | 0.984秒 |
| glm-5.1 | 小智超长角色提示词下的首Token时间 | 2.266秒 |
| MiniMax-M2.7 | 小智超长角色提示词下的首Token时间 | 3.434秒 |
| 测试方法 | 部署方法 | 测试地点 | 测试时间 | 宽带运营商 |
|---|
| 点击查看 | 点击查看 | 广东省广州市海珠区 | 2025年9月30日 10:11 | 中国联通 |
| 模型名称 | 部署设备 | 指标名称 | 指标值 |
|---|
| qwen2.5-72b-instruct | 4张A800显卡 | 小智超长角色提示词下的首Token时间 | 0.601秒 |
| 测试方法 | 测试地点 | 测试时间 | 宽带运营商 |
|---|
| 点击查看 | 广东省广州市海珠区 | 2025年9月30日 10:33 | 中国联通 |
| 模型名称 | 指标名称 | 指标值 |
|---|
| CosyVoiceSiliconflow-Small | 平均处理时间 | 0.103秒/次 |
| AliyunTTS | 平均处理时间 | 0.322秒/次 |
| DoubaoTTS | 平均处理时间 | 0.327秒/次 |
| TencentTTS | 平均处理时间 | 0.365秒/次 |
| CosyVoiceSiliconflow) | 平均处理时间 | 0.488秒/次 |
| MinimaxTTSHTTPStream | 平均处理时间 | 0.662秒/次 |
| EdgeTTS | 平均处理时间 | 0.667秒/次 |
| CozeCnTTS | 平均处理时间 | 0.751秒/次 |
| TTS302AI | 平均处理时间 | 1.785秒/次 |
| 模型名称 | 指标名称 | 指标值 |
|---|
| PaddleSpeechTTS(本地部署) | 平均首音时间 | 0.103秒/次 |
| XunFeiTTS | 平均首音时间 | 0.253秒/次 |
| IndexStream | 平均首音时间 | 0.312秒/次 |
| HuoshanDoubleStreamTTS | 平均首音时间 | 0.317秒/次 |
| Linkerai | 平均首音时间 | 0.455秒/次 |
| AliyunStreamTTS | 平均首音时间 | 0.712秒/次 |
| 测试方法 | 测试地点 | 测试时间 | 宽带运营商 |
|---|
| 点击查看 | 广东省广州市海珠区 | 2026年4月16日 14:10 | 中国联通 |
| 模型名称 | 指标名称 | 指标值 |
|---|
| glm-4v-flash | 平均响应时间 | 2.634秒 |
| qwen3-vl-flash-2025-10-15 | 平均响应时间 | 3.035秒 |
| qwen3.5-35b-a3b | 平均响应时间 | 6.382秒 |
| qwen3-vl-flash-2026-01-22 | 平均响应时间 | 6.405秒 |
| glm-5v-turbo | 平均响应时间 | 7.774秒 |
| kimi-k2.5 | 平均响应时间 | 9.549秒 |
| qwen3-vl-plus-2025-09-23 | 平均响应时间 | 10.764秒 |
| qwen3.5-flash-2026-02-23 | 平均响应时间 | 12.549秒 |
| qwen3-vl-plus-2025-12-19 | 平均响应时间 | 13.922秒 |