最近、Googleから音声合成モデル「T5Gemma」というボイスエンコーダー、デコーダが発表されました。 T5Gemma-TTS試してみました 自分の声、約10秒ほどのゼロショット学習です。
A GAN-based fine-tuning framework for Qwen/Qwen3-TTS-Tokenizer-12Hz decoder. The primary use case is extending the decoder with an extra upsample block to produce 48 kHz output — but the same script ...