Open source voice cloning TTS models worth trying

a month ago

Four open-source voice cloning models (OmniVoice, LongCat-AudioDiT, FireRedTTS-2, Fish Audio S2 Pro) now rival commercial TTS in quality and capability.
OmniVoice supports over 600 languages with voice design features and fast inference, but requires clean audio for best results.
LongCat-AudioDiT uses waveform latent space to skip spectrograms, achieving high speaker similarity, though its larger variant needs powerful GPUs.
FireRedTTS-2 enables multi-speaker conversations with low latency and streaming, but is large and best for Chinese and English.
Fish Audio S2 Pro offers granular emotional control via tags and near-human output, but has licensing restrictions and requires GPU for self-hosting.
These models demonstrate open-source TTS has closed the gap with commercial options, offering diverse applications from multilingual to conversational voice generation.

Hasty Briefsbeta