README_ko.md

June 24, 2026 · View on GitHub

산업용 음성인식. 최대 340배 실시간, Whisper보다 26배 빠름. 50개 이상 언어 지원.
화자 분리 · 감정 인식 · 스트리밍 · 한 번의 호출로 해결

빠른 시작 · Colab · 모델 선택 · 벤치마크 · Migration guide · Use cases · Deployment matrix · 모델 목록 · Agent 연동 · 문서

빠른 시작

pip install funasr

from funasr import AutoModel

model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda")
result = model.generate(input="meeting.wav")

출력 — 화자 라벨, 타임스탬프, 구두점이 포함된 구조화된 텍스트:

[00:00.4 → 00:03.8] 화자0: Q3 계획에 대해 논의하겠습니다.
[00:04.2 → 00:07.1] 화자1: 좋습니다. 세 가지 포인트가 있습니다.
[00:07.5 → 00:12.3] 화자0: 말씀하세요. 30분 남았습니다.

하나의 모델, 한 번의 호출 — VAD 분할, 음성인식, 구두점 복원, 화자 분리가 모두 자동으로 수행됩니다.

처음 사용한다면 Colab 빠른 시작으로 먼저 확인할 수 있습니다. 어떤 모델을 선택할지 고민된다면 모델 선택 가이드를 참고하세요.

API 서버로 배포: funasr-server --device cuda → localhost:8000에서 OpenAI 호환 엔드포인트

AI Agent 연동: MCP 서버 Claude/Cursor 지원 · OpenAI API LangChain/Dify/AutoGen 지원

왜 FunASR인가?

Whisper는 단일 모델이지만, FunASR는 툴킷입니다 — 용도에 맞는 모델을 고르세요: Fun-ASR-Nano(플래그십 LLM-ASR, GPU 필요, vLLM로 340배 실시간, 31개 언어), SenseVoice(CPU 친화적, 감정·오디오 이벤트 포함), Paraformer(저지연 스트리밍). 아래 표는 단일 Whisper 모델 대비 툴킷이 제공하는 것이며, 각 기능에는 이를 제공하는 모델을 표기했습니다:

	FunASR(툴킷)	Whisper	클라우드 API
최고 속도	340배 실시간(Fun-ASR-Nano + vLLM)	13배 실시간	~1배 실시간
화자 인식	✅ 내장	❌ pyannote 필요	✅ 추가 비용
감정 인식	✅ SenseVoice 제공	❌	❌
언어 수	50개 이상(Qwen3-ASR 52, Nano 31)	57개	서비스마다 다름
스트리밍	✅ WebSocket(Paraformer)	❌	✅
CPU 사용	✅ 17배 실시간(SenseVoice)	❌ 너무 느림	해당 없음
자체 호스팅	✅ MIT 라이선스	✅ MIT 라이선스	❌ 클라우드만
비용	무료	무료	$0.006/분~

벤치마크

184개 장시간 오디오(총 192분). 상세 보고서 →

모델	중국어 CER ↓	GPU 속도	CPU 속도	Whisper-large-v3 대비
Fun-ASR-Nano(vLLM)	8.20%	340배 실시간	—	🚀 26배 빠름
SenseVoice-Small	7.81%	170배 실시간	17배 실시간	🚀 13배 빠름
Paraformer-Large	10.18%	120배 실시간	15배 실시간	🚀 9배 빠름
Whisper-large-v3-turbo	21.71%	46배 실시간	❌	3.4배 빠름
Whisper-large-v3	20.02%	13배 실시간	❌	기준선

핵심: FunASR의 CPU 속도가 Whisper의 GPU 속도보다 빠릅니다.

설치

pip install funasr

요구사항: Python ≥ 3.8, PyTorch ≥ 1.13, torchaudio

모델 목록

모델	작업	언어	파라미터	링크
Fun-ASR-Nano	인식 + 타임스탬프	31개 언어	800M	⭐ 🤗
SenseVoiceSmall	인식 + 감정 + 이벤트	중/영/일/한/광둥어	234M	⭐ 🤗
Paraformer-zh	인식 + 타임스탬프	중/영	220M	⭐ 🤗
Qwen3-ASR	인식, 52개 언어	다국어	1.7B	사용법
GLM-ASR-Nano	인식, 17개 언어	다국어	1.5B	사용법
Whisper-large-v3-turbo	인식 + 번역	다국어	809M	사용법

배포

# OpenAI 호환 API (권장)
pip install funasr fastapi uvicorn python-multipart
funasr-server --device cuda

# Docker 스트리밍 서비스
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

Colab quickstart → · OpenAI API example → · Client recipes → · Workflow recipes → · Postman collection → · OpenAPI spec → · Security guide → · Deployment matrix → · 배포 문서 → · Agent 연동 →

커뮤니티


📖 문서	🐛 Issues
💬 Discussions	🤗 HuggingFace

라이선스

MIT License