语音合成 So-VITS-SVC - 推理参数详解 - 《AI知识库》

常见推理参数详解
自动 f0 预测
基本上是一个自动变调功能，可以将模型音高匹配到推理源音高，用于说话声音转换时可以打开，能够更好匹配音调。
f0 预测器
在推理时必须选择一个 f0 预测算法。以下是各个预测器算法在推理时的优缺点：

预测器	优点	缺点
pm	速度快，占用低	容易出现哑音
crepe	基本不会出现哑音	显存占用高，自带均值滤波，因此可能会出现跑调
dio	-	可能跑调
harvest	低音部分有更好表现	其他音域就不如别的算法了
rmvpe	六边形战士，目前最完美的预测器	几乎没有缺点（极端长低音可能会出错）

聚类模型/特征检索混合比例
该参数控制的是使用聚类模型/特征检索模型时线性参与的占比。聚类模型和特征检索均可以有限提升音色相似度，但带来的代价是会降低咬字准确度（特征检索的咬字比聚类稍好一些）。该参数的范围为 0-1, 0为不启用，越靠近 1, 则音色越相似，咬字越模糊。
聚类模型和特征检索共用这一参数，当加载模型时使用了何种模型，则该参数控制何种模型的混合比例。
注意，当未加载聚类模型或特征检索模型时，请保持改参数为 0，否则会报错。
切片阈值
推理时，切片工具会将上传的音频根据静音段切分为数个小段，分别推理后合并为完整音频。这样做的好处是小段音频推理显存占用低，因而可以将长音频切分推理以免爆显存。切片阈值参数控制的是最小满刻度分贝值，低于这个值将被切片工具视为静音并去除。因此，当上传的音频比较嘈杂时，可以将该参数设置得高一些（如 -30），反之，可以将该值设置得小一些（如 -50）避免切除呼吸声和细小人声。
开发组近期的一项测试表明，较小的切片阈值（如-50）会改善输出的咬字，至于原理暂不清楚。
自动音频切片
上面提到，推理时，切片工具会将上传的音频根据静音段切分为数个小段，分别推理后合并为完整音频。但有时当人声过于连续，长时间不存在静音段时，切片工具也会相应切出来过长的音频，容易导致爆显存。自动音频切片功能则是设定了一个最长音频切片时长，初次切片后，如果存在长于该时长的音频切片，将会被按照该时长二次强制切分，避免了爆显存的问题。
强制切片可能会导致音频从一个字的中间切开，分别推理再合并时可能会存在人声不连贯。你需要在高级设置中设置强制切片的交叉淡入长度来避免这一问题。
使用 Whisper-PPG 编码器的模型时，会自动设置一个 25 秒的强制切片，否则会无法正常推理。
文本转语音
文本转语音使用微软的 edge_TTS 服务生成一段原始语音，再通过 So-VITS 将这段语音的声线转换为目标声线。
So-VITS 只能实现歌声转换 (SVC) 功能，没有任何原生的文本转语音 (TTS) 功能！
目前文本转语音共支持 55 种语言，涵盖了大部分常见语言。程序会根据文本框内输入的文本自动识别语言并转换。
自动识别只能识别到语种，而某些语种可能涵盖不同的口音，说话人，如果使用了自动识别，程序会从符合该语种和指定性别的说话人种随机挑选一个来转换。如果你的目标语种说话人口音比较多（例如英语），建议手动指定一个口音的说话人。如果手动指定了说话人，则先前手动选择的性别会被抑制。

edge_TTS 所有说话人的对应表请见这里。