最强声音克隆软件IndexTTS2
发布时间:
2025-10-29
预览次数:
IndexTTS-v2(即IndexTTS2)是B站(哔哩哔哩)团队开发的最新文本转语音(TTS)模型,于2025年9月开源,主要特性包括:
核心特性
零样本语音克隆:仅需一段参考音频即可复刻目标音色,无需大量数据训练。 12
情感可控:通过参考音频、情感向量或文本描述调节语气,支持多语种情感表达。 13
时长精确控制:创新时间编码机制解决传统模型时长对齐问题,适用于视频配音等场景。 34
跨语言支持:适配中文、英文等多语种场景,支持FP16和DeepSpeed加速优化性能。 12
安装与使用
环境要求:Windows/macOS系统,需预留至少24GB硬盘空间,推荐使用NVIDIA GPU并安装CUDA。 1
安装方式:通过魔当软件或官方仓库下载安装包,按步骤完成环境配置后即可运行。 1
技术突破
该模型首次将情感表达与音色解耦,实现独立控制,并在自回归TTS中引入时长控制机制,论文发表于ArXiv(2025年6月),GitHub星标超10k
论文:
https://arxiv.org/abs/2506.21619
项目仓库:
https://github.com/index-tts/index-tts
模型:
https://www.modelscope.cn/models/IndexTeam/IndexTTS-2
一键整合包,27G。不用科学上网,模型直接打包好
通过网盘分享的文件:index-tts-v2.zip
链接: https://pan.baidu.com/s/1eyWhCRtHwbnARjiqxQlfJw?pwd=umzr
提取码: umzr

上一篇:
已经没有了
下一篇:
ffmpeg用法汇总