La start-up Hume AI propose une intelligence artificielle (IA) capable de cloner la voix de l’utilisateur, copiant son timbre, son rythme de paroles, et même certaines de ses intonations. Une fonctionnalité intrigante… Et un brin troublante.
https://clubic.com//actualite-573474-votre-clone-vocal-est-la-lexpérienc-bluffante-de-hume-ai.html
il y en a d’autres .
j’utilise Coqui TTS qui fonctionne deja bien, 'ideal serait plus VTS qu’un TTS, sinon merci gemini Cli :
Catégorie 1 : Les Logiciels IA en Ligne (Simples et Rapides)
Ces plateformes sont des services commerciaux (souvent avec une offre gratuite limitée) qui ont rendu le clonage de voix accessible à tous. Elles sont idéales pour
obtenir des résultats de haute qualité rapidement et sans compétences techniques.
ElevenLabs
C’est le leader incontesté du marché grand public. La qualité de leur clonage est bluffante de réalisme et d’émotion.
- Comment ça marche ? Vous uploadez quelques minutes d’un enregistrement audio « propre » de la voix que vous voulez cloner. L’IA analyse ses caractéristiques. Ensuite,
vous tapez un texte, et l’IA le lira avec la voix clonée, en essayant de reproduire l’intonation et l’émotion.
- Points Forts :
Qualité exceptionnelle : Le résultat est souvent indiscernable de la voix originale.
Très facile à utiliser.
Contrôle de l’émotion : Permet d’ajuster le style de la voix générée (calme, en colère, etc.).
Multilingue.
- Points Faibles :
Modèle freemium. L’offre gratuite est limitée, il faut un abonnement pour un usage intensif.
Play.ht
Très populaire, surtout pour des usages professionnels comme la création de livres audio, de podcasts ou de voix off pour des vidéos.
- Comment ça marche ? Similaire à ElevenLabs. Vous fournissez des échantillons audio, et la plateforme crée un clone vocal que vous pouvez utiliser pour générer de
l’audio à partir de texte.
- Points Forts :
Très haute qualité, voix très « propres ».
Excellente intégration avec des plateformes de blogging (WordPress) pour transformer des articles en audio.
- Points Faibles :
Plus orienté « professionnel » et donc un peu plus cher.
Resemble.ai
Un autre acteur majeur, très axé sur la flexibilité et les cas d’usage avancés (jeux vidéo, assistants vocaux, etc.).
- Comment ça marche ? En plus du clonage standard, il propose des fonctionnalités comme le « speech-to-speech » (transformer votre voix en la voix clonée en temps réel) et
la modification d’émotions.
- Points Forts :
Très flexible et puissant.
Permet de « réparer » des mots dans un enregistrement existant en les régénérant avec la voix clonée.
Catégorie 2 : Les Logiciels Open-Source Auto-Hébergés (Contrôle Total)
Ces solutions sont pour les utilisateurs techniques, les chercheurs et les passionnés qui n’ont pas peur de mettre les mains dans le code. Elles offrent une liberté
totale mais demandent des compétences en Python, une bonne connaissance du terminal et, surtout, un GPU NVIDIA puissant pour l’entraînement.
Coqui TTS (Text-to-Speech)
C’est le projet open-source le plus connu et le plus complet pour la synthèse et le clonage de voix. C’est le successeur spirituel du projet TTS de Mozilla.
- Comment ça marche ? C’est une bibliothèque Python. Vous devez préparer un « dataset » : plusieurs heures d’enregistrements audio de la voix cible, avec les
transcriptions textuelles correspondantes. Vous lancez ensuite un long processus d’entraînement (training) sur votre GPU. Une fois le modèle entraîné, vous pouvez lui
donner du texte à lire.
- Points Forts :
Contrôle total : Vous maîtrisez tout le processus, des données d’entrée aux paramètres d’entraînement.
Qualité potentiellement excellente : Avec un bon dataset et un bon entraînement, la qualité peut rivaliser avec les services en ligne.
Gratuit et sans censure.
- Points Faibles :
Très complexe à mettre en œuvre.
Nécessite un gros volume de données audio (plusieurs heures pour un bon résultat).
L’entraînement est très long (peut prendre des jours sur un GPU grand public).
Tortoise-TTS
Un autre projet open-source très populaire, réputé pour sa capacité à générer des voix très naturelles et émotives.
- Comment ça marche ? Similaire à Coqui TTS, mais il est souvent considéré comme un peu plus simple pour le clonage rapide (« zero-shot » ou « few-shot » cloning), où il
peut obtenir des résultats corrects avec seulement quelques secondes d’audio.
- Points Forts :
Excellente prosodie et intonation naturelle.
Bonnes capacités de clonage avec peu de données.
- Points Faibles :
La génération est connue pour être assez lente.
Demande également un bon GPU et des compétences techniques.
Tableau Récapitulatif
| Outil |
Type |
Facilité d’Utilisation |
Qualité du Résultat |
Idéal Pour… |
| ElevenLabs |
En Ligne (Commercial) |
Très Facile |
Exceptionnelle |
Obtenir rapidement des résultats de haute qualité sans effort. |
| Play.ht |
En Ligne (Commercial) |
Facile |
Très Haute |
Les créateurs de contenu (podcasts, livres audio). |
| Coqui TTS |
Open-Source |
Très Difficile |
Dépend de vous (Bonne à Excellente) |
Les passionnés et les développeurs qui veulent un contrôle total. |
| Tortoise-TTS |
Open-Source |
Difficile |
Très Bonne (naturelle) |
Ceux qui veulent une voix très expressive et qui sont à l’aise avec le code. |
1 « J'aime »
Et sinon, chirp3 sur Google cloud😉
Mais attention, ce n’est pas ouvert a tout le monde, la techno étant vraiment bluffante, et donc sensible (car on peut faire suite n’importe quoi a n’importe qui…), il faut une permission spéciale de Google pour l’utiliser! !