[Python爱好者社区] - 2021-12-22 危！我用 python 克隆了女朋友的声音！ - 《Python 学习教程》

精选留言

危！我用 python 克隆了女朋友的声音！
这个算法是基于比较著名的 Real Time Voice Cloning 实现的。
MockingBird 是最近开源的中文版。
论文的名字是：
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
简单介绍下：
[Python爱好者社区] - 2021-12-22 危！我用 python 克隆了女朋友的声音！ - 图1
算法分为三个模块：encoder模块、systhesis模块、vocoder模块。

encoder模块将说话人的声音转换成人声的数字编码（speaker embedding）
synthesis 模块将文本转换成梅尔频谱（mel-spectrogram）
vocoder模块将梅尔频谱（mel-spectrogram）转换成（波形）waveform

具体的算法原理，大家可以先看论文：
https://arxiv.org/pdf/1806.04558.pdf
今天主要聊聊，这个算法怎么玩。
项目地址：https://github.com/babysor/MockingBird
有深度学习基础的话，这个应该不难。
就是部署环境，分四步：

Anaconda 配置 Pytorch 开发环境
根据项目 requirements.txt 安装第三方库依赖
下载权重文件
下载训练集，这个几十G，有点大

具体的配置方法，直接看这里：
https://github.com/babysor/MockingBird/blob/main/README-CN.md
环境搭建搞定后，就可以运行代码了。
有两种模式可以启动，Web 模式和工具箱模式。
在项目根目录运行：
python web.py
即可开启 Web ，打开地址 http://localhost:8080 就能操作了。
[Python爱好者社区] - 2021-12-22 危！我用 python 克隆了女朋友的声音！ - 图2
这个界面比较简陋，建议使用工具箱模式。
python demo_toolbox.py -d
datasets_root就是下载好的数据集的地址。

Enjoy it！
- EOF -
😁 顺便提一嘴：

本周自媒体副业实战公开课（共9节）预告：

我将于🕘12月22日晚9点 | 周三视频号免费直播

🌻直播主题：1小时解锁新人入场抖音的正确姿势

我敢跟你们拍🤲胸脯保证，这极大概率是全网最干货的直播，全程没有回放。

👇👇👇直接戳下放卡片预约，不要错过呦！！

精选留言

暂无…