TTS-文字转语音

可以通过提示词模拟语气停顿、笑声、叹息、背景音乐等

GitHub - suno-ai/bark: 🔊 Text-Prompted Generative Audio Model

声音克隆

GPT-SoVITS/docs/cn/README.md at main · RVC-Boss/GPT-SoVITS

集样本预处理、训练与预测于一体,只需要1分钟的语音样本即可克隆声音。

AI相关资讯-第十期 - 图1

AI相关资讯-第十期 - 图2

钟离先生不在这里,多少有些可惜,他是位相当懂行的观众,又欣赏得来辛焱的演出….wav

tmpykblbjee.wav

语音转文字

openAI开源,必属精品,业内最强开源模型

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

桌面版Whisper:

GitHub - Const-me/Whisper: High-performance GPGPU inference of OpenAI’s Whisper automatic speech recognition (ASR) model

很好用,之前老婆要学习一个很长的课程,要交作业。直接将视频转为音频,再将音频通过这个工具转成了文字,然后再使用大模型对文字进行思维导图总结,一份完美的作业就好了。

GPU 版

https://github.com/Const-me/Whisper)

通过[此处]下载模型

实测即使是我的 4080,在使用 [ggml-large-v3.bin]模型跑任务也超级慢。用次一级的 [ggml-medium.bin] 速度和效果都还不错

CPU 版

https://github.com/chidiwilliams/buzz)

使用时会下载对应的模型,有时候网络问题导致下载失败,可以通过【help->Preferences->models】进行单独下载

AI相关资讯-第十期 - 图3

由于是 cpu 版,medium 模型就已经很慢了