转录音频 - 《Python Basics 中文系列教程》

示例
- 安装必备组件
- 转录

原文： https://pythonbasics.org/transcribe-audio/

您可以使用 Python 自动转录音频文件。

如果您有一个带有口语单词的音频文件，则程序将完全自动输出该音频文件的转录本。

本示例使用英语作为音频文件的输入语言，但是从技术上讲，只要语音识别引擎支持，就可以使用任何语言。

示例

首先创建带有语音的音频文件。这可以是任何带有英语单词的音频文件。将文件另存为transcript.mp3

如果不确定从哪里获得语音音频文件，则可以使用 Bluemix 生成一个语音文件。

安装必备组件

要运行该应用程序，您需要安装以下几项：

Python 3
pydub 模块
程序 ffmpeg
模块语音识别

您可以使用 pip 安装 Python 模块。ffmpeg可以与您的软件包管理器一起安装（apt-get，emerge，yum，pacman）

转录

音频转录可以通过几个步骤进行：

mp3 到 WAV 转换，
加载音频文件，
将音频文件提供给特定的识别系统。

复制下面的程序，并将其另存为transcribe.py

import speech_recognition as sr
from os import path
from pydub import AudioSegment
# convert mp3 file to wav                                                       
sound = AudioSegment.from_mp3("transcript.mp3")
sound.export("transcript.wav", format="wav")
# transcribe audio file                                                         
AUDIO_FILE = "transcript.wav"
# use the audio file as the audio source                                        
r = sr.Recognizer()
with sr.AudioFile(AUDIO_FILE) as source:
        audio = r.record(source)  # read the entire audio file                  
        print("Transcription: " + r.recognize_google(audio))

使用以下程序运行程序：

python3 transcribe.py

它将输出原始音频文件的转录。

下载音频示例