简介 - 《FunASR 开发文档 - 帮助手册 - 教程》

核心功能
最新动态
安装教程
模型仓库
快速开始
导出ONNX
服务部署

FunASR 希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调，研究人员和开发人员可以更方便地进行语音识别模型的研究和生产，并推动语音识别生态的发展。让语音识别更有趣！

核心功能

FunASR是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程，支持预训练好的模型的推理与微调。
我们在ModelScope与huggingface上发布了大量开源数据集或者海量工业数据训练的模型，可以通过我们的模型仓库了解模型的详细信息。代表性的Paraformer非自回归端到端语音识别模型具有高精度、高效率、便捷部署的优点，支持快速构建语音识别服务，详细信息可以阅读(服务部署文档)。

最新动态

2024/10/29: 中文实时语音听写服务 1.12 发布，2pass-offline模式支持SensevoiceSmall模型；详细信息参阅(部署文档)
2024/10/10：新增加Whisper-large-v3-turbo模型支持，多语言语音识别/翻译/语种识别，支持从 modelscope仓库下载，也支持从 openai仓库下载模型。
2024/09/26: 中文离线文件转写服务 4.6、英文离线文件转写服务 1.7、中文实时语音听写服务 1.11 发布，修复ONNX内存泄漏、支持SensevoiceSmall onnx模型；中文离线文件转写服务GPU 2.0 发布，修复显存泄漏; 详细信息参阅(部署文档)
2024/09/25：新增语音唤醒模型，支持fsmn_kws, fsmn_kws_mt, sanm_kws, sanm_kws_streaming 4个模型的微调和推理。
2024/07/04：SenseVoice 是一个基础语音理解模型，具备多种语音理解能力，涵盖了自动语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED）。
2024/07/01：中文离线文件转写服务GPU版本 1.1发布，优化bladedisc模型兼容性问题；详细信息参阅(部署文档)
2024/06/27：中文离线文件转写服务GPU版本 1.0发布，支持动态batch，支持多路并发，在长音频测试集上单线RTF为0.0076，多线加速比为1200+（CPU为330+）；详细信息参阅(部署文档)
2024/05/15：新增加情感识别模型，emotion2vec+large，emotion2vec+base，emotion2vec+seed，输出情感类别为：生气/angry，开心/happy，中立/neutral，难过/sad。
2024/05/15: 中文离线文件转写服务 4.5、英文离线文件转写服务 1.6、中文实时语音听写服务 1.10 发布，适配FunASR 1.0模型结构；详细信息参阅(部署文档)
2024/03/05：新增加Qwen-Audio与Qwen-Audio-Chat音频文本模态大模型，在多个音频领域测试榜单刷榜，中支持语音对话，详细用法见示例。
2024/03/05：新增加Whisper-large-v3模型支持，多语言语音识别/翻译/语种识别，支持从 modelscope仓库下载，也支持从 openai仓库下载模型。
2024/03/05: 中文离线文件转写服务 4.4、英文离线文件转写服务 1.5、中文实时语音听写服务 1.9 发布，docker镜像支持arm64平台，升级modelscope版本；详细信息参阅(部署文档)
2024/01/30：funasr-1.0发布，更新说明文档

展开日志

- 2024/01/30：新增加情感识别模型链接，原始模型 repo. - 2024/01/25: 中文离线文件转写服务 4.2、英文离线文件转写服务 1.3，优化vad数据处理方式，大幅降低峰值内存占用，内存泄漏优化；中文实时语音听写服务 1.7 发布，客户端优化；详细信息参阅(部署文档) - 2024/01/09: funasr社区软件包windows 2.0版本发布，支持软件包中文离线文件转写4.1、英文离线文件转写1.2、中文实时听写服务1.6的最新功能，详细信息参阅(FunASR社区软件包windows版本) - 2024/01/03: 中文离线文件转写服务 4.0 发布，新增支持8k模型、优化时间戳不匹配问题及增加句子级别时间戳、优化英文单词fst热词效果、支持自动化配置线程参数，同时修复已知的crash问题及内存泄漏问题，详细信息参阅(部署文档) - 2024/01/03: 中文实时语音听写服务 1.6 发布，2pass-offline模式支持Ngram语言模型解码、wfst热词，同时修复已知的crash问题及内存泄漏问题，详细信息参阅(部署文档) - 2024/01/03: 英文离线文件转写服务 1.2 发布，修复已知的crash问题及内存泄漏问题，详细信息参阅(部署文档) - 2023/12/04: funasr社区软件包windows 1.0版本发布，支持中文离线文件转写、英文离线文件转写、中文实时听写服务，详细信息参阅(FunASR社区软件包windows版本) - 2023/11/08：中文离线文件转写服务3.0 CPU版本发布，新增标点大模型、Ngram语言模型与wfst热词，详细信息参阅(部署文档) - 2023/10/17: 英文离线文件转写服务一键部署的CPU版本发布，详细信息参阅(部署文档) - 2023/10/13: SlideSpeech: 一个大规模的多模态音视频语料库，主要是在线会议或者在线课程场景，包含了大量与发言人讲话实时同步的幻灯片。 - 2023.10.10: Paraformer-long-Spk模型发布，支持在长语音识别的基础上获取每句话的说话人标签。 - 2023.10.07: FunCodec: FunCodec提供开源模型和训练工具，可以用于音频离散编码，以及基于离散编码的语音识别、语音合成等任务。 - 2023.09.01: 中文离线文件转写服务2.0 CPU版本发布，新增ffmpeg、时间戳与热词模型支持，详细信息参阅(部署文档) - 2023.08.07: 中文实时语音听写服务一键部署的CPU版本发布，详细信息参阅(部署文档) - 2023.07.17: BAT一种低延迟低内存消耗的RNN-T模型发布，详细信息参阅（BAT） - 2023.06.26: ASRU2023 多通道多方会议转录挑战赛2.0完成竞赛结果公布，详细信息参阅（M2MeT2.0）

安装教程

安装funasr之前，确保已经安装了下面依赖环境:
```
python>=3.8
torch>=1.13
torchaudio
```
pip安装
```
pip3 install -U funasr
```

或者从源代码安装

git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./

如果需要使用工业预训练模型，安装modelscope与huggingface_hub（可选）

pip3 install -U modelscope huggingface huggingface_hub

模型仓库

FunASR开源了大量在工业数据上预训练模型，您可以在模型许可协议下自由使用、复制、修改和分享FunASR模型，下面列举代表性的模型，更多模型请参考模型仓库。

（注：⭐ 表示ModelScope模型仓库，🤗 表示Huggingface模型仓库，🍀表示OpenAI模型仓库）

模型名字	任务详情	训练数据	参数量
SenseVoiceSmall (⭐ 🤗 )	多种语音理解能力，涵盖了自动语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED）	400000小时，中文	330M
paraformer-zh (⭐ 🤗 )	语音识别，带时间戳输出，非实时	60000小时，中文	220M
paraformer-zh-streaming ( ⭐ 🤗 )	语音识别，实时	60000小时，中文	220M
paraformer-en ( ⭐ 🤗 )	语音识别，非实时	50000小时，英文	220M
conformer-en ( ⭐ 🤗 )	语音识别，非实时	50000小时，英文	220M
ct-punc ( ⭐ 🤗 )	标点恢复	100M，中文与英文	290M
fsmn-vad ( ⭐ 🤗 )	语音端点检测，实时	5000小时，中文与英文	0.4M
fsmn-kws ( ⭐ )	语音唤醒，实时	5000小时，中文	0.7M
fa-zh ( ⭐ 🤗 )	字级别时间戳预测	50000小时，中文	38M
cam++ ( ⭐ 🤗 )	说话人确认/分割	5000小时	7.2M
Whisper-large-v3 (⭐ 🍀 )	语音识别，带时间戳输出，非实时	多语言	1550 M
Whisper-large-v3-turbo (⭐ 🍀 )	语音识别，带时间戳输出，非实时	多语言	809 M
Qwen-Audio (⭐ 🤗 )	音频文本多模态大模型（预训练）	多语言	8B
Qwen-Audio-Chat (⭐ 🤗 )	音频文本多模态大模型（chat版本）	多语言	8B
emotion2vec+large (⭐ 🤗 )	情感识别模型	40000小时，4种情感类别	300M

快速开始

下面为快速上手教程，测试音频（中文，英文）

可执行命令行

funasr ++model=paraformer-zh ++vad_model="fsmn-vad" ++punc_model="ct-punc" ++input=asr_example_zh.wav

注：支持单条音频文件识别，也支持文件列表，列表为kaldi风格wav.scp：wav_id wav_path

非实时语音识别

SenseVoice

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess
model_dir = "iic/SenseVoiceSmall"
model = AutoModel(
    model=model_dir,
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)
# en
res = model.generate(
    input=f"{model.model_path}/example/en.mp3",
    cache={},
    language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn=True,
    batch_size_s=60,
    merge_vad=True,  #
    merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

参数说明：

model_dir：模型名称，或本地磁盘中的模型路径。
vad_model：表示开启VAD，VAD的作用是将长音频切割成短音频，此时推理耗时包括了VAD与SenseVoice总耗时，为链路耗时，如果需要单独测试SenseVoice模型耗时，可以关闭VAD模型。
vad_kwargs：表示VAD模型配置,max_single_segment_time: 表示vad_model最大切割音频时长, 单位是毫秒ms。
use_itn：输出结果中是否包含标点与逆文本正则化。
batch_size_s 表示采用动态batch，batch中总音频时长，单位为秒s。
merge_vad：是否将 vad 模型切割的短音频碎片合成，合并后长度为merge_length_s，单位为秒s。
ban_emo_unk：禁用emo_unk标签，禁用后所有的句子都会被赋与情感标签。

Paraformer

from funasr import AutoModel
# paraformer-zh is a multi-functional asr model
# use vad, punc, spk or not as you need
model = AutoModel(model="paraformer-zh",  vad_model="fsmn-vad", punc_model="ct-punc", 
                  # spk_model="cam++"
                  )
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", 
            batch_size_s=300, 
            hotword='魔搭')
print(res)

注：hub：表示模型仓库，ms为选择modelscope下载，hf为选择huggingface下载。

实时语音识别

from funasr import AutoModel
chunk_size = [0, 10, 5] #[0, 10, 5] 600ms, [0, 8, 4] 480ms
encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attention
model = AutoModel(model="paraformer-zh-streaming")
import soundfile
import os
wav_file = os.path.join(model.model_path, "example/asr_example.wav")
speech, sample_rate = soundfile.read(wav_file)
chunk_stride = chunk_size[1] * 960 # 600ms
cache = {}
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
for i in range(total_chunk_num):
    speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]
    is_final = i == total_chunk_num - 1
    res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size, encoder_chunk_look_back=encoder_chunk_look_back, decoder_chunk_look_back=decoder_chunk_look_back)
    print(res)

注：chunk_size为流式延时配置，[0,10,5]表示上屏实时出字粒度为10*60=600ms，未来信息为5*60=300ms。每次推理输入为600ms（采样点数为16000*0.6=960），输出为对应文字，最后一个语音片段输入需要设置is_final=True来强制输出最后一个字。

更多例子

### 语音端点检测（非实时）

python
from funasr import AutoModel

model = AutoModel(model="fsmn-vad")

wav_file = f"{model.model_path}/example/vad_example.wav"
res = model.generate(input=wav_file)
print(res)

注：VAD模型输出格式为：[[beg1, end1], [beg2, end2], .., [begN, endN]]，其中begN/endN表示第N个有效音频片段的起始点/结束点，单位为毫秒。 ### 语音端点检测（实时）

python
from funasr import AutoModel

chunk_size = 200 # ms
model = AutoModel(model="fsmn-vad")

import soundfile

wav_file = f"{model.model_path}/example/vad_example.wav"
speech, sample_rate = soundfile.read(wav_file)
chunk_stride = int(chunk_size * sample_rate / 1000)

cache = {}
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
for i in range(total_chunk_num):
    speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]
    is_final = i == total_chunk_num - 1
    res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size)
    if len(res[0]["value"]):
        print(res)

注：流式VAD模型输出格式为4种情况： - [[beg1, end1], [beg2, end2], .., [begN, endN]]：同上离线VAD输出结果。 - [[beg, -1]]：表示只检测到起始点。 - [[-1, end]]：表示只检测到结束点。 - []：表示既没有检测到起始点，也没有检测到结束点输出结果单位为毫秒，从起始点开始的绝对时间。 ### 标点恢复

python
from funasr import AutoModel

model = AutoModel(model="ct-punc")

res = model.generate(input="那今天的会就到这里吧 happy new year 明年见")
print(res)

### 时间戳预测

python
from funasr import AutoModel

model = AutoModel(model="fa-zh")

wav_file = f"{model.model_path}/example/asr_example.wav"
text_file = f"{model.model_path}/example/text.txt"
res = model.generate(input=(wav_file, text_file), data_type=("sound", "text"))
print(res)

### 情感识别

python
from funasr import AutoModel

model = AutoModel(model="emotion2vec_plus_large")

wav_file = f"{model.model_path}/example/test.wav"

res = model.generate(wav_file, output_dir="./outputs", granularity="utterance", extract_embedding=False)
print(res)

更详细（教程文档），更多（模型示例）

导出ONNX

从命令行导出

funasr-export ++model=paraformer ++quantize=false

从Python导出

from funasr import AutoModel
model = AutoModel(model="paraformer")
res = model.export(quantize=False)

测试ONNX

# pip3 install -U funasr-onnx
from funasr_onnx import Paraformer
model_dir = "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model = Paraformer(model_dir, batch_size=1, quantize=True)
wav_path = ['~/.cache/modelscope/hub/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/example/asr_example.wav']
result = model(wav_path)
print(result)

更多例子请参考样例

服务部署

FunASR支持预训练或者进一步微调的模型进行服务部署。目前支持以下几种服务部署：

中文离线文件转写服务（CPU版本），已完成
中文流式语音识别服务（CPU版本），已完成
英文离线文件转写服务（CPU版本），已完成
中文离线文件转写服务（GPU版本），进行中
更多支持中

详细信息可以参阅(服务部署文档)。