README_ko.md

June 24, 2026 · View on GitHub

(English|简体中文|日本語|한국어)

FunASR

산업용 음성인식. 최대 340배 실시간, Whisper보다 26배 빠름. 50개 이상 언어 지원.
화자 분리 · 감정 인식 · 스트리밍 · 한 번의 호출로 해결

PyPI Stars Downloads Docs

modelscope%2FFunASR | Trendshift

빠른 시작 · Colab · 모델 선택 · 벤치마크 · Migration guide · Use cases · Deployment matrix · 모델 목록 · Agent 연동 · 문서


빠른 시작

pip install funasr
from funasr import AutoModel

model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda")
result = model.generate(input="meeting.wav")

출력 — 화자 라벨, 타임스탬프, 구두점이 포함된 구조화된 텍스트:

[00:00.4 → 00:03.8] 화자0: Q3 계획에 대해 논의하겠습니다.
[00:04.2 → 00:07.1] 화자1: 좋습니다. 세 가지 포인트가 있습니다.
[00:07.5 → 00:12.3] 화자0: 말씀하세요. 30분 남았습니다.

하나의 모델, 한 번의 호출 — VAD 분할, 음성인식, 구두점 복원, 화자 분리가 모두 자동으로 수행됩니다.

처음 사용한다면 Colab 빠른 시작으로 먼저 확인할 수 있습니다. 어떤 모델을 선택할지 고민된다면 모델 선택 가이드를 참고하세요.

API 서버로 배포: funasr-server --device cuda → localhost:8000에서 OpenAI 호환 엔드포인트

AI Agent 연동: MCP 서버 Claude/Cursor 지원 · OpenAI API LangChain/Dify/AutoGen 지원

왜 FunASR인가?

Whisper는 단일 모델이지만, FunASR는 툴킷입니다 — 용도에 맞는 모델을 고르세요: Fun-ASR-Nano(플래그십 LLM-ASR, GPU 필요, vLLM로 340배 실시간, 31개 언어), SenseVoice(CPU 친화적, 감정·오디오 이벤트 포함), Paraformer(저지연 스트리밍). 아래 표는 단일 Whisper 모델 대비 툴킷이 제공하는 것이며, 각 기능에는 이를 제공하는 모델을 표기했습니다:

FunASR(툴킷)Whisper클라우드 API
최고 속도340배 실시간(Fun-ASR-Nano + vLLM)13배 실시간~1배 실시간
화자 인식✅ 내장❌ pyannote 필요✅ 추가 비용
감정 인식✅ SenseVoice 제공
언어 수50개 이상(Qwen3-ASR 52, Nano 31)57개서비스마다 다름
스트리밍✅ WebSocket(Paraformer)
CPU 사용✅ 17배 실시간(SenseVoice)❌ 너무 느림해당 없음
자체 호스팅✅ MIT 라이선스✅ MIT 라이선스❌ 클라우드만
비용무료무료$0.006/분~

벤치마크

184개 장시간 오디오(총 192분). 상세 보고서 →

모델중국어 CER ↓GPU 속도CPU 속도Whisper-large-v3 대비
Fun-ASR-Nano(vLLM)8.20%340배 실시간🚀 26배 빠름
SenseVoice-Small7.81%170배 실시간17배 실시간🚀 13배 빠름
Paraformer-Large10.18%120배 실시간15배 실시간🚀 9배 빠름
Whisper-large-v3-turbo21.71%46배 실시간3.4배 빠름
Whisper-large-v320.02%13배 실시간기준선

핵심: FunASR의 CPU 속도가 Whisper의 GPU 속도보다 빠릅니다.


최신 소식

  • 2026/05/24: v1.3.3funasr-server CLI, OpenAI 호환 API, MCP 서버. pip install --upgrade funasr
  • 2026/05/20: Qwen3-ASR (0.6B/1.7B) 추가 — 52개 언어 지원.
  • 2026/05/20: GLM-ASR-Nano (1.5B) 추가 — 17개 언어, 방언 지원.
  • 2025/12/15: Fun-ASR-Nano-2512 — 31개 언어 지원.

설치

pip install funasr

요구사항: Python ≥ 3.8, PyTorch ≥ 1.13, torchaudio


모델 목록

모델작업언어파라미터링크
Fun-ASR-Nano인식 + 타임스탬프31개 언어800M 🤗
SenseVoiceSmall인식 + 감정 + 이벤트중/영/일/한/광둥어234M 🤗
Paraformer-zh인식 + 타임스탬프중/영220M 🤗
Qwen3-ASR인식, 52개 언어다국어1.7B사용법
GLM-ASR-Nano인식, 17개 언어다국어1.5B사용법
Whisper-large-v3-turbo인식 + 번역다국어809M사용법

배포

# OpenAI 호환 API (권장)
pip install funasr fastapi uvicorn python-multipart
funasr-server --device cuda

# Docker 스트리밍 서비스
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

Colab quickstart → · OpenAI API example → · Client recipes → · Workflow recipes → · Postman collection → · OpenAPI spec → · Security guide → · Deployment matrix → · 배포 문서 → · Agent 연동 →


커뮤니티

📖 문서🐛 Issues
💬 Discussions🤗 HuggingFace

라이선스

MIT License