版本号说明
目前该文档使用两个版本号系统,分别是 So-VITS 官方的版本号,以及本整合包的版本号。请注意不要混淆。So-VITS 官方版本号目前为 4.1,其下另有两个分支:4.1-Stable 以及 4.1-Latest.
⏩4.1-Stable是官方的稳定版本,4.1-Latest中包含一些尚在开发的新特性。由于后者可能存在一些 BUG,因此本整合包将仅同步更新 4.1-Stable的内容。
本整合包使用语义化版本,与 So-VITS 官方版本号独立发展。如无特殊说明,整合包的最新版本将始终与官方同步更新。您可以在更新日志中查看本整合包最新的版本说明。
更新日志
2023.07.14 v2.3.10修复了部分情况下 TTS 和批量转换无法正常推理的问题
2023.07.13 v2.3.9
🚩新增 RMVPE f0 预测器
2023.07.11 v2.3.8
修复了部分情况下无法以 FP32 精度训练的 BUG
修复了部分情况下无法正常批量推理的 BUG
2023.07.05 v2.3.7
新增文本转语音语速音量调整,添加全 55 种语言支持和语种自动识别(请见推理参数详解 - 关于文本转语音)
新增 BF16 训练支持
修复了部分情况下 FFmpeg 未能正确加载的 BUG
新增一些防炒饭机制
2023.06.24 v2.3.6
新增真浅扩散训练,可加快训练速度并提高浅扩散模型质量(请见训练参数详解 - 关于浅扩散)
新增浅扩散推理采样器和加速倍数选项
新增模型发布打包和安装工具(请见模型发布和安装)
WebUI 可离线运行
2023.06.18 v2.3.5
新增独立目录模式管理模型(请见多模型管理)
优化了一些逻辑
2023.06.10 v2.3.4
新增 Whisper-PPG 的扩散模型训练支持和扩散底模
新增 4 个编码器可选项(请见训练参数详解 - 关于特征编码器)
新增推理输出音频格式可选项、卸载模型选项、新增一些防炒饭机制
2023.06.07 v2.3.3
修复了一个会导致扩散模型训练出错的 BUG
2023.06.07 v2.3.2
智能切片工具可指定切片长度范围,修复了部分情况下切片长度小于最小值的 BUG
优化了模型加载交互,可手动选择 CPU 或 CUDA 推理
缩减了整合包大小
2023.06.03 v2.3.1
修复了响度嵌入模型在特定情况下输出的音频响度无法匹配输入源的 BUG
2023.06.03 v2.3.0
新增 Vec768L12 的响度嵌入底模
🚩新增特征检索功能
新增多线程预处理功能
新增输入源响度包络融合、浅扩散二次编码、默认参数记忆功能
2023.05.30 v2.2.0
新增 Whisper-PPG 编码器可选项
🚩新增训练的响度嵌入可选项,可将模型的输出音频匹配为输入源响度,而非训练集响度
2023.05.20 v2.1.3
修复了训练聚类模型的BUG
修复了浅扩散推理时无法正确加载采样器的BUG
2023.05.20 v2.1.2
修复了一个会导致无法加载模型的BUG
2023.05.20 v2.1.1
修复了无法训练聚类模型的BUG,新增GPU训练聚类模型的可选项
修复了无法继续训练扩散模型的BUG
修复了其他的一些BUG
2023.05.19 v2.1.0
🚩新增浅扩散功能,可显著改善电音底噪问题
新增hubertsoft编码器底模
修复了一些BUG和逻辑
2023.05.15 v2.0.0
加入了训练时的特征编码器和f0预测器可选项
新增模型压缩工具,可以将模型体积无损压缩至200M左右
重构了部分代码,与项目仓库同步,将编码器与模型解耦
2023.05.13 v1.5.1
修复了一个导致无法训练的BUG
2023.05.13 v1.5.0
加入了推理时的f0预测器可选项
加入了文本转语音的部分中文方言支持(东北话、陕西话、粤语)
2023.05.12 v1.4.2
修复了一些无伤大雅的BUG,加入对P4显卡的识别
优化了一些交互逻辑
2023.05.05 v1.4.1
修复了一个致命BUG,会导致重新训练时无法正确备份先前的工作进度
修复了其他的BUG和优化了逻辑
2023.05.02 v1.4.0
🚩新增文本转语音功能(edge_TTS)
新增数据集智能切片小工具,无需调参数即可一键制作时长符合要求的数据集
修复了一些BUG
2023.04.28 v1.3.2
修复了特定情况下训练Vec768分支无法正确加载模型和配置文件的BUG
修复了其他的一些BUG
2023.04.27 v1.3.1
修复了Vec768-Layer12分支训练时无法正确识别说话人的BUG
修复了一些无关紧要的BUG
2023.04.26 v1.3.0
🚩新增Vec768-Layer12(4.0v3)分支支持,该分支在小规模测试下质量和上限均优于原版
新增音频批量推理功能
2023.04.25 v1.2.1
修复了一些BUG
新增f0均值滤波的过滤阈值可选项
2023.04.24 v1.2.0
新增多模型声线融合功能
新增 Onnx 批量转换
优化了 WebUI 界面