README_ja.md

June 24, 2026 · View on GitHub

(English|简体中文|日本語|한국어)

FunASR

産業グレードの音声認識。最大340倍リアルタイム、Whisperより26倍高速。50以上の言語に対応。
話者分離 · 感情認識 · ストリーミング · ワンコールで完結

PyPI Stars Downloads Docs

modelscope%2FFunASR | Trendshift

クイックスタート · Colab · モデル選択 · ベンチマーク · Migration guide · Use cases · Deployment matrix · モデル一覧 · Agent連携 · ドキュメント


クイックスタート

pip install funasr
from funasr import AutoModel

model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda")
result = model.generate(input="meeting.wav")

出力 — 話者ラベル・タイムスタンプ・句読点付きの構造化テキスト:

[00:00.4 → 00:03.8] 話者0: Q3の計画について話し合いましょう。
[00:04.2 → 00:07.1] 話者1: いいですね。3つのポイントがあります。
[00:07.5 → 00:12.3] 話者0: どうぞ。あと30分あります。

1つのモデル、1回の呼び出し — VADセグメンテーション、音声認識、句読点復元、話者分離がすべて自動で実行されます。

初めて使う場合は Colab クイックスタート から試せます。どのモデルを選ぶか迷う場合は モデル選択ガイド を参照してください。

APIサーバーとしてデプロイ: funasr-server --device cuda → localhost:8000でOpenAI互換エンドポイント

AIエージェント連携: MCPサーバー Claude/Cursor対応 · OpenAI API LangChain/Dify/AutoGen対応

なぜFunASRを選ぶのか?

Whisper は単一モデルですが、FunASR はツールキットです——用途に応じてモデルを選べます:Fun-ASR-Nano(フラッグシップ LLM-ASR、GPU が必要、vLLM で 340 倍リアルタイム、31 言語)、SenseVoice(CPU に優しく、感情・音声イベントも)、Paraformer(低遅延ストリーミング)。下の表は、単一の Whisper モデルに対してツールキットが提供できるものです——各機能にはそれを提供するモデルを併記しています:

FunASR(ツールキット)WhisperクラウドAPI
最高速度340倍リアルタイム(Fun-ASR-Nano + vLLM)13倍リアルタイム〜1倍リアルタイム
話者認識✅ 内蔵❌ pyannoteが必要✅ 追加料金
感情認識✅ SenseVoice による
言語数50以上(Qwen3-ASR 52、Nano 31)57サービスにより異なる
ストリーミング✅ WebSocket(Paraformer)
CPU対応✅ 17倍リアルタイム(SenseVoice)❌ 遅すぎる該当なし
セルフホスト✅ MITライセンス✅ MITライセンス❌ クラウドのみ
コスト無料無料$0.006/分〜

ベンチマーク

184件の長時間音声(計192分)。詳細レポート →

モデル中国語 CER ↓GPU速度CPU速度Whisper-large-v3比
Fun-ASR-Nano(vLLM)8.20%340倍リアルタイム🚀 26倍高速
SenseVoice-Small7.81%170倍リアルタイム17倍リアルタイム🚀 13倍高速
Paraformer-Large10.18%120倍リアルタイム15倍リアルタイム🚀 9倍高速
Whisper-large-v3-turbo21.71%46倍リアルタイム3.4倍高速
Whisper-large-v320.02%13倍リアルタイムベースライン

ポイント: FunASRのCPU速度は、WhisperのGPU速度より速い。


最新情報

  • 2026/05/24:v1.3.3funasr-server CLI、OpenAI互換API、MCPサーバー。pip install --upgrade funasr
  • 2026/05/20:Qwen3-ASR (0.6B/1.7B) 追加 — 52言語対応。
  • 2026/05/20:GLM-ASR-Nano (1.5B) 追加 — 17言語、方言対応。
  • 2025/12/15:Fun-ASR-Nano-2512 — 31言語対応。

インストール

pip install funasr

要件:Python ≥ 3.8、PyTorch ≥ 1.13、torchaudio


モデル一覧

モデルタスク言語パラメータリンク
Fun-ASR-Nano認識 + タイムスタンプ31言語800M 🤗
SenseVoiceSmall認識 + 感情 + イベント中/英/日/韓/粤234M 🤗
Paraformer-zh認識 + タイムスタンプ中/英220M 🤗
Qwen3-ASR認識、52言語多言語1.7B使用法
GLM-ASR-Nano認識、17言語多言語1.5B使用法
Whisper-large-v3-turbo認識 + 翻訳多言語809M使用法

デプロイ

# OpenAI互換API(推奨)
pip install funasr fastapi uvicorn python-multipart
funasr-server --device cuda

# Dockerストリーミングサービス
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

Colab quickstart → · OpenAI API example → · Client recipes → · Workflow recipes → · Postman collection → · OpenAPI spec → · Security guide → · Deployment matrix → · デプロイドキュメント → · Agent連携 →


コミュニティ

📖 ドキュメント🐛 Issues
💬 Discussions🤗 HuggingFace

ライセンス

MIT License