PPASR流式与非流式语音识别项目

December 17, 2025 · View on GitHub

python version GitHub forks GitHub Repo stars GitHub 支持系统

PPASR流式与非流式语音识别项目

PPASR是一款基于PaddlePaddle实现的自动语音识别框架,PPASR中文名称PaddlePaddle中文语音识别(PaddlePaddle Automatic Speech Recognition),当前为V3版本,与V2版本不兼容,如果想使用V2版本,请在这个分支V2。PPASR致力于简单,实用的语音识别项目。可部署在服务器,Nvidia Jetson设备,未来还计划支持Android等移动设备。别忘了star

欢迎大家扫码入知识星球或者QQ群讨论,知识星球里面提供项目的模型文件和博主其他相关项目的模型文件,也包括其他一些资源。

知识星球 QQ群

本项目使用的环境:

  • Anaconda 3
  • Python 3.11
  • PaddlePaddle 2.6.1
  • Windows 11 or Ubuntu 22.04

在线试用

网页版: 在线试用地址

微信小程序
微信小程序

项目特点

  1. 支持多个语音识别模型,包含deepspeech2conformersqueezeformerefficient_conformer等,每个模型都支持流式识别和非流式识别,在配置文件中streaming参数设置。
  2. 支持多种解码器,包含ctc_greedy_searchctc_prefix_beam_searchattention_rescoringctc_beam_search等。
  3. 支持多种预处理方法,包含fbankmfcc等。
  4. 支持多种数据增强方法,包含噪声增强、混响增强、语速增强、音量增强、重采样增强、位移增强、SpecAugmentor、SpecSubAugmentor等。
  5. 支持多种推理方法,包含短音频推理、长音频推理、流式推理、说话人分离推理等。
  6. 更多特点等待你发现。

与V2版本的区别

  1. 项目结构的优化,大幅度降低的使用难度。
  2. 更换预处理的库,改用kaldi_native_fbank,在提高数据预处理的速度,同时也支持多平台。
  3. 修改token的方法,使用sentencepiece制作token,这个框架极大的降低了多种语言的处理难度,同时还使中英文混合训练成为可能。

更新记录

  • 2025.03: 正式发布最终级的V3版本。

视频讲解

模型下载

  1. WenetSpeech (10000小时,普通话) 的预训练模型列表,错误率类型为字错率(CER):
使用模型是否为流式预处理方式解码方式test_nettest_meetingaishell_test下载地址
ConformerTruefbankctc_greedy_search0.147580.195620.06925加入知识星球获取
ConformerTruefbankctc_prefix_beam_search0.146890.193230.06930加入知识星球获取
ConformerTruefbankattention_rescoring0.137860.189220.06028加入知识星球获取
ConformerTruefbankctc_beam_search0.206600.298350.05336加入知识星球获取
DeepSpeech2Truefbankctc_greedy_search加入知识星球获取
DeepSpeech2Truefbankctc_prefix_beam_search加入知识星球获取
DeepSpeech2Truefbankctc_beam_search加入知识星球获取
  1. AIShell (179小时,普通话) 的预训练模型列表,错误率类型为字错率(CER):
使用模型是否为流式预处理方式解码方式自带的测试集下载地址
ConformerTruefbankctc_greedy_search0.06110加入知识星球获取
ConformerTruefbankctc_prefix_beam_search0.06114加入知识星球获取
ConformerTruefbankattention_rescoring0.05412加入知识星球获取
ConformerTruefbankctc_beam_search0.04468加入知识星球获取
DeepSpeech2Truefbankctc_greedy_search0.14134加入知识星球获取
DeepSpeech2Truefbankctc_prefix_beam_search0.14132加入知识星球获取
DeepSpeech2Truefbankctc_beam_search0.10598加入知识星球获取
  1. Librispeech (960小时,英语) 的预训练模型列表,错误率类型为词错率(WER):
使用模型是否为流式预处理方式解码方式自带的测试集下载地址
ConformerTruefbankctc_greedy_search0.07562加入知识星球获取
ConformerTruefbankctc_prefix_beam_search0.07518加入知识星球获取
ConformerTruefbankattention_rescoring0.06669加入知识星球获取
ConformerTruefbankctc_beam_search/加入知识星球获取
DeepSpeech2Truefbankctc_greedy_search0.15479加入知识星球获取
DeepSpeech2Truefbankctc_prefix_beam_search0.15247加入知识星球获取
DeepSpeech2Truefbankctc_beam_search/加入知识星球获取
  1. 其他数据集的预训练模型列表,错误率类型,如果是中文就是字错率(CER),英文则是词错率(WER),中英混合为混合错误率(MER):
使用模型数据集语言解码方式测试数据下载地址
Conformer粤语数据集粤语ctc_greedy_search0.05834加入知识星球获取
Conformer粤语数据集粤语ctc_prefix_beam_search0.05815加入知识星球获取
Conformer粤语数据集粤语attention_rescoring0.04734加入知识星球获取
Conformer粤语数据集粤语ctc_beam_search0.06191加入知识星球获取
Conformer中英混合数据集中英文ctc_greedy_search0.09462加入知识星球获取
Conformer中英混合数据集中英文ctc_prefix_beam_search0.09416加入知识星球获取
Conformer中英混合数据集中英文attention_rescoring0.08283加入知识星球获取
Conformer中英混合数据集中英文ctc_beam_search/加入知识星球获取
Conformer更大数据集(16000+小时)中英文ctc_greedy_search加入知识星球获取
Conformer更大数据集(16000+小时)中英文ctc_prefix_beam_search加入知识星球获取
Conformer更大数据集(16000+小时)中英文attention_rescoring加入知识星球获取
Conformer更大数据集(16000+小时)中英文ctc_beam_search加入知识星球获取
ConformerCommonVoice-Uyghur + THUYG20维吾尔语ctc_greedy_search0.04510加入知识星球获取
ConformerCommonVoice-Uyghur + THUYG20维吾尔语ctc_prefix_beam_search0.04404加入知识星球获取
ConformerCommonVoice-Uyghur + THUYG20维吾尔语attention_rescoring0.02823加入知识星球获取

说明:

  1. 这里字错率或者词错率是使用eval.py
  2. 分别给出了使用三个解码器的错误率,其中ctc_prefix_beam_searchattention_rescoring的解码搜索大小为10。
  3. 训练时使用了噪声增强和混响增强,以及其他增强方法,具体请看配置参数configs/augmentation.yml
  4. 这里只提供了流式模型,但全部模型都支持流式和非流式的,在配置文件中streaming参数设置。
  5. 使用CommonVoice-Uyghur的测试集作为本项目测试集,其余的和THUYG20全部作为训练集。

有问题欢迎提 issue 交流

文档教程

相关项目

特别感谢

打赏作者


打赏一块钱支持一下作者

打赏作者

参考资料