FunASR 模型选择指南

June 22, 2026 · View on GitHub

当你第一次选择模型、评估是否从 Whisper 或云端 ASR 迁移，或者准备通过 OpenAI 兼容 API 暴露模型别名时，可以先看这份指南。

默认快速路径

如果有 GPU，先从旗舰 Fun-ASR-Nano 开始 —— 基于 LLM 的识别模型（SenseVoice 编码器 + Qwen3 解码），覆盖 31 语种，在难例、上下文和专名上精度最强：

from funasr import AutoModel

model = AutoModel(model="FunAudioLLM/Fun-ASR-Nano-2512", device="cuda")
result = model.generate(input="meeting.wav")
print(result[0]["text"])

在 CPU 上，或当你想要多语种 + 情感/事件标签、带说话人信息的会议转写一次完成时，用 SenseVoice-Small：

from funasr import AutoModel

model = AutoModel(
    model="iic/SenseVoiceSmall",
    vad_model="fsmn-vad",
    spk_model="cam++",
    device="cuda",  # 便携 smoke test 可改为 "cpu"
)
result = model.generate(input="meeting.wav")

当你的场景是纯中文、需要字级时间戳或热词时，切换到 Paraformer。

决策表

需求	优先尝试	原因	下一步文档
快速多语种私有转写	SenseVoice-Small	兼顾 ASR、情感标签、音频事件标签和 CPU 可用性。	README 快速开始
中文生产 ASR	Paraformer-Large	成熟中文 ASR 路径，可组合 VAD 和标点。	教程
OpenAI API 示例中的英文路由	`paraformer-en` alias	适合在 OpenAI 风格客户端里验证较轻量英文路径。	OpenAI API 示例
LLM-based ASR 或 31 语种实验	Fun-ASR-Nano	LLM-based 模型路径；解码吞吐敏感时配合 vLLM。	vLLM 指南
实时字幕或客服流式音频	Runtime WebSocket 服务	面向长连接流式会话和中间结果。	Runtime 服务文档
录音归档批处理	SenseVoice-Small 或 Paraformer-Large	稳定离线转写路径；调用方负责 manifest、重试和日志。	批处理示例
从 Whisper/云端 ASR 迁移	先用 SenseVoice-Small，再 benchmark 其他模型	先建立强基线，再做模型专项调优。	迁移指南

OpenAI 兼容 API 别名

examples/openai_api 服务提供短别名，应用团队不需要了解具体模型仓库 ID：

Alias	底层路径	适合场景
`sensevoice`	`iic/SenseVoiceSmall`	默认私有语音 API，多语种 ASR、事件标签和 CPU/GPU 行为较均衡。
`paraformer`	`paraformer-zh` + VAD + 标点	中文生产流量优先尝试。
`paraformer-en`	`paraformer-en` + VAD	OpenAI 风格客户端里的英文轻量路由。
`fun-asr-nano`	`FunAudioLLM/Fun-ASR-Nano-2512`	评估 LLM-based ASR、31 语种覆盖或 vLLM 加速。

接入客户端前先检查在线服务：

curl http://localhost:8000/v1/models
python examples/openai_api/smoke_test.py --base-url http://localhost:8000 --model sensevoice

SDK、JavaScript、工作流、Postman、OpenAPI、Docker 和 Kubernetes 路径可从 OpenAI API 示例开始。

按工作负载选择运行路径

工作负载	运行路径	说明
Notebook 或一次性评估	Python `AutoModel`	验证安装、模型下载和输出结构的最短路径。
内部 HTTP 服务	OpenAI 兼容 API	复用 OpenAI 风格客户端、Dify、n8n、LangChain、AutoGen 和 HTTP 节点。
可复现本地容器 demo	Docker Compose API	CPU-first smoke test；使用 CUDA 前先适配镜像。
集群内私有服务	Kubernetes API 模板	私有 `ClusterIP`、持久化模型缓存、`/health` probes 和 port-forward smoke test。
实时音频	Runtime WebSocket 服务	用真实音频验证 chunk size、VAD、断句、重连和客户端背压。
LLM-based ASR 吞吐	Fun-ASR-Nano 的 vLLM 路径	vLLM 加速自回归解码；不适用于非自回归 Paraformer。

选择部署方式时可以参考部署选型表。

上线前先 benchmark

不要只用一个干净 demo 文件选型。先准备一个小而有代表性的集合：

20-50 条音频，覆盖短音频、长会议、静音、噪声、多人重叠、领域词汇和目标语言。
记录模型名、模型版本、FunASR 版本、设备、CPU/GPU 型号、CUDA/PyTorch 版本、运行路径、batch size，以及是否排除 warmup/模型下载时间。
使用你已有的 WER/CER 流程或人工审阅，不要只看转写文本是否“读起来还行”。
同时记录延迟、吞吐、内存、失败样例和上传大小限制。
保留至少一个公开样例用于 smoke test，也保留至少一个真实私有样本用于部署验证。

迁移场景可以使用迁移评测示例和迁移指南。

实用建议

demo、私有 API、Agent 语音输入和多语种场景优先试 SenseVoice-Small。
中文生产流量优先试 Paraformer，尤其是希望走成熟非自回归 ASR 路径时。
明确需要 LLM-based 模型路径或 vLLM 加速实验时，再试 Fun-ASR-Nano。
需要中间结果和长连接时，优先使用 streaming runtime，而不是普通 HTTP 转写接口。
生产 runbook 中固定模型 alias，保证 benchmark 和问题复现可追踪。
遇到阻塞时，用 Deployment Help issue 提供模型、设备、命令、日志、音频时长和运行路径。