这个代码库会指导你如何将自己的声线通过微调加入已有的VITS模型中,从而使得一个模型就可以实现用户声线到上百个角色声线的高质量转换。
欢迎体验微调所使用的底模,一个包含中日英三语的TTS(文本到语音合成)模型!
- 转换用户声线到 这些角色
- 自定义角色的中日英三语TTS(待完成)
- 赛马娘 (仅已实装角色)
- 魔女的夜宴(柚子社) (5人)
- 原神 (仅已实装角色)
- 任意角色(待完成)
建议使用 Google Colab 进行微调任务,因为VITS在多语言情况下的某些环境依赖相当难以配置。
- 安装依赖 (2 min)
- 录入你自己的声音,至少20条3~4秒的短句 (5 min)
- 进行微调 (30 min)
微调结束后可以直接下载微调好的模型,日后在本地运行(不需要GPU)
- Install Python if you haven't done so (Python >= 3.7)
- Clone this repo:
git clone https://github.com/SongtingLiu/VITS_voice_conversion.git
- Install dependencies
pip install -r requirements_infer.txt
- run VC_inference.py
python VC_inference.py