Tous les articles
Google Text to Speech : Guide d'Installation & API (2026)
Healsha
Healsha le 4 février 2026
8 min de lecture

Google Text to Speech : Guide d'Installation & API (2026)

Pourquoi Google Text to Speech ?

La synthèse vocale (TTS) de Google est passée de voix robotiques à une parole étonnamment naturelle. Que vous ayez besoin de voix off pour vos vidéos, de fonctions d'accessibilité pour vos apps ou de versions audio de contenus écrits, Google TTS offre une solution puissante et accessible.

Ce guide couvre toutes les manières d'utiliser Google text to speech, des fonctions intégrées aux appareils jusqu'à l'API Cloud pro, avec des conseils pour obtenir un résultat le plus naturel possible.

Vos enregistrements méritent mieux

Vous avez un produit à construire et des utilisateurs à acquérir. Vibrantsnap vous permet de créer des démos pro sans monteur vidéo. Enregistrez, améliorez avec l'IA, publiez.

Photo of Aayush ChhabraPhoto of NCPhoto of Alex DulubPhoto of Ranolf

Adopté par plus de 1827 fondateurs

Les Options Google TTS en Aperçu

Google propose la synthèse vocale via plusieurs canaux :

OptionIdéal pourCoûtQualité
Android TTSLecture sur l'appareilGratuitBonne
Google DocsLecture de documentsGratuitBonne
Extensions ChromeContenu webGratuitBonne
Google AI StudioCréation de contenuPlan gratuitExcellente
API Cloud TTSApplicationsÀ l'usageExcellente

Utiliser Google TTS sur Android

Android inclut Google TTS par défaut, ce qui donne une synthèse vocale au niveau système.

Configurer Android TTS

Étape 1 : Accéder aux paramètres TTS

  1. Ouvrez les Paramètres
  2. Allez dans Accessibilité (ou Système > Langue et saisie)
  3. Trouvez "Synthèse vocale"

Étape 2 : Choisir le moteur Google TTS

  1. Touchez "Moteur préféré"
  2. Sélectionnez "Google Text-to-Speech"

Étape 3 : Configurer les paramètres de voix

  • Langue : choisissez votre langue préférée
  • Vitesse : ajustez (plus lent pour la clarté, plus rapide pour l'efficacité)
  • Hauteur : modifiez la hauteur de voix selon vos préférences

Étape 4 : Télécharger les voix

  1. Touchez l'icône paramètres à côté de Google TTS
  2. Sélectionnez "Installer les données de voix"
  3. Téléchargez les voix pour usage hors ligne

Utiliser Android TTS

Dans les apps compatibles :

Beaucoup d'apps incluent une option "Écouter" ou "Lire à voix haute" qui utilise le TTS système.

Avec Sélectionner pour énoncer :

  1. Activez "Sélectionner pour énoncer" dans les paramètres d'accessibilité
  2. Sélectionnez n'importe quel texte à l'écran
  3. Touchez le bouton lecture pour l'entendre

Avec TalkBack :

Pour une lecture d'écran complète, activez TalkBack dans les paramètres d'accessibilité.

Utiliser Google TTS dans Google Docs

Google Docs propose une synthèse vocale intégrée pour la relecture et l'accessibilité.

Activer le Support Lecteur d'Écran

Étape 1 : Activer l'accessibilité

  1. Ouvrez un document Google
  2. Allez dans Outils > Paramètres d'accessibilité
  3. Cochez "Activer le support du lecteur d'écran"
  4. Cliquez sur OK

Étape 2 : Utiliser la lecture vocale

  1. Sélectionnez le texte à écouter
  2. Allez dans Accessibilité > Énoncer la sélection
  3. Ou utilisez le raccourci : Ctrl + Alt + X (Windows) ou Cmd + Option + X (Mac)

Intégration avec la Saisie Vocale

Google Docs propose aussi la saisie vocale (speech-to-text) :

  1. Allez dans Outils > Saisie vocale
  2. Cliquez sur l'icône micro
  3. Parlez pour dicter du texte

Cela donne un workflow vocal complet : dictez, puis faites-vous relire.

Extensions Chrome pour Google TTS

Les extensions navigateur amènent le TTS sur n'importe quelle page web.

Read Aloud : A Text to Speech Voice Reader

Fonctionnalités :

  • Marche sur n'importe quelle page web
  • Plusieurs voix dont des voix Google
  • Vitesse et hauteur ajustables
  • Surligne le texte à mesure qu'il lit

Installation :

  1. Installez depuis le Chrome Web Store
  2. Allez sur n'importe quelle page web
  3. Cliquez sur l'icône de l'extension
  4. Cliquez sur lecture pour démarrer

Natural Reader Text to Speech

Fonctionnalités :

  • Voix premium
  • Support PDF et ebooks
  • OCR pour images
  • Options adaptées à la dyslexie

Google Dictionary (Double-clic)

Pour la prononciation d'un mot :

  1. Installez l'extension Google Dictionary
  2. Double-cliquez sur n'importe quel mot
  3. Cliquez sur l'icône haut-parleur pour écouter

Google AI Studio pour un TTS Haute Qualité

Pour les créateurs qui veulent une voix off pro, Google AI Studio propose un excellent TTS.

Accéder à Google AI Studio

  1. Allez sur aistudio.google.com
  2. Connectez-vous avec votre compte Google
  3. Accédez aux fonctions de synthèse vocale

Créer une Voix Off

Étape 1 : Saisir le texte

Collez ou tapez le contenu à convertir.

Étape 2 : Choisir la voix

Choisissez parmi les voix disponibles :

  • Différents genres
  • Accents et langues variés
  • Différents styles

Étape 3 : Ajuster les paramètres

  • Vitesse
  • Hauteur
  • Gain de volume

Étape 4 : Générer et télécharger

Pré-écoutez l'audio puis téléchargez en MP3 ou WAV.

Conseils pour un Résultat Naturel

Écrivez pour la voix :

  • Phrases plus courtes
  • Virgules pour les pauses naturelles
  • Développez les abréviations (Dr. devient Docteur)
  • Orthographe phonétique pour les mots inhabituels

Testez et itérez :

Différentes voix gèrent différents contenus. Testez plusieurs voix pour trouver celle qui colle le mieux.

L'API Google Cloud Text-to-Speech

Pour les développeurs et power users, l'API Cloud TTS offre le plus de contrôle et la meilleure qualité.

Configurer Cloud TTS

Étape 1 : Créer un projet Google Cloud

  1. Allez sur console.cloud.google.com
  2. Créez un nouveau projet ou sélectionnez un existant
  3. Notez l'ID du projet

Étape 2 : Activer l'API

  1. Allez dans APIs & Services > Library
  2. Cherchez "Cloud Text-to-Speech API"
  3. Cliquez sur Activer

Étape 3 : Configurer l'authentification

  1. Allez dans APIs & Services > Credentials
  2. Créez un compte de service
  3. Téléchargez le fichier de clé JSON
  4. Définissez la variable GOOGLE_APPLICATION_CREDENTIALS

Étape 4 : Installer la bibliothèque cliente

Pour Python :

pip install google-cloud-texttospeech

Utilisation Basique de l'API

Exemple Python simple :

from google.cloud import texttospeech

# Créer le client
client = texttospeech.TextToSpeechClient()

# Définir le texte d'entrée
synthesis_input = texttospeech.SynthesisInput(text="Bonjour le monde !")

# Configurer la voix
voice = texttospeech.VoiceSelectionParams(
    language_code="fr-FR",
    ssml_gender=texttospeech.SsmlVoiceGender.NEUTRAL
)

# Configurer la sortie audio
audio_config = texttospeech.AudioConfig(
    audio_encoding=texttospeech.AudioEncoding.MP3
)

# Générer la voix
response = client.synthesize_speech(
    input=synthesis_input,
    voice=voice,
    audio_config=audio_config
)

# Sauvegarder dans un fichier
with open("output.mp3", "wb") as out:
    out.write(response.audio_content)

Options de Voix

Google Cloud TTS propose plusieurs types de voix :

Voix standard :

  • Bonne qualité
  • Coût faible
  • Beaucoup de langues

Voix WaveNet :

  • Qualité supérieure, plus naturelle
  • Coût plus élevé
  • Basées sur du deep learning

Voix Neural2 :

  • Dernière génération
  • Le rendu le plus naturel
  • Tarif premium

Voix Studio :

  • Qualité de comédien voix off pro
  • Langues limitées
  • La meilleure qualité disponible

Tarifs

Google Cloud TTS facture au caractère :

  • Voix standard : 4 $ par million de caractères
  • Voix WaveNet : 16 $ par million de caractères
  • Voix Neural2 : 16 $ par million de caractères

Le plan gratuit inclut 4 millions de caractères/mois en standard et 1 million en WaveNet.

SSML pour un Contrôle Avancé

Le Speech Synthesis Markup Language (SSML) donne un contrôle précis sur la sortie vocale.

Tags SSML de Base

Ajouter des pauses :

<speak>
  Bonjour <break time="500ms"/> tout le monde.
</speak>

Emphase :

<speak>
  C'est <emphasis level="strong">très</emphasis> important.
</speak>

Prononciation :

<speak>
  <say-as interpret-as="characters">SSML</say-as>
</speak>

Vitesse et hauteur :

<speak>
  <prosody rate="slow" pitch="+2st">
    Je parle lentement et plus haut.
  </prosody>
</speak>

Exemples Pratiques de SSML

Lire un numéro de téléphone :

<speak>
  Appelez-nous au <say-as interpret-as="telephone">01-23-45-67-89</say-as>
</speak>

Épeler un acronyme :

<speak>
  <say-as interpret-as="characters">API</say-as> signifie
  Application Programming Interface.
</speak>

Mettre l'accent sur un point clé :

<speak>
  La date limite est <emphasis>demain</emphasis>,
  pas la semaine prochaine.
</speak>
Vibrantsnap screen recorder
Conçu pour les fondateurs qui avancent vite

Vous n'avez pas le temps de vous compliquer la vie avec du montage. Vibrantsnap vous donne des démos qualité studio depuis un simple enregistrement d'écran. L'IA monte pour que vous restiez concentré sur le produit.

Photo of Aayush ChhabraPhoto of NCPhoto of Alex DulubPhoto of Ranolf

Adopté par plus de 1827 fondateurs

Créer des Voix Off pour Vidéo

Workflow

Étape 1 : Écrire votre script

Écrivez en mode conversation, pas en mode formel. Lisez à voix haute pour vérifier le flow.

Étape 2 : Adapter pour le TTS

  • Découpez en paragraphes plus courts
  • Ajoutez des guides de prononciation pour les mots inhabituels
  • Insérez des pauses SSML là où c'est nécessaire

Étape 3 : Générer l'audio

Utilisez Google AI Studio ou l'API Cloud pour la meilleure qualité.

Étape 4 : Éditer si besoin

Importez dans un éditeur audio pour :

  • Couper les silences
  • Ajuster les niveaux
  • Ajouter musique ou effets

Étape 5 : Synchroniser avec la vidéo

Importez l'audio dans votre éditeur vidéo et calez sur le visuel.

Conseils pour Mieux

Choix de voix :

Adaptez la voix au contenu :

  • Pro : voix Studio ou Neural2
  • Casual : les WaveNet font le job
  • Technique : voix plus claires, plus lentes

Rythme :

Ajoutez des pauses aux moments naturels. Les balises SSML aident à contrôler le timing.

Plusieurs voix :

Pour du dialogue ou plusieurs intervenants, utilisez des voix différentes et combinez les audios.

Comparer Google TTS aux Alternatives

FonctionGoogle TTSAmazon PollyElevenLabsOpenAI TTS
Qualité voixExcellenteTrès bonneExcellenteExcellente
Plan gratuitOuiLimitéLimitéNon
Langues50+30+30+10+
Clonage de voixNonNonOuiNon
Support SSMLCompletCompletPartielNon
FacilitéFacileModéréFacileFacile

Dépannage des Soucis Courants

Rendu Robotique

Solutions :

  • Utilisez des voix WaveNet ou Neural2 plutôt que standard
  • Ajoutez du SSML pour des pauses naturelles
  • Découpez les longs textes en segments plus courts
  • Vérifiez la prononciation des mots inhabituels

Mauvaise Prononciation

Solutions :

  • Utilisez les balises SSML phoneme pour la prononciation précise
  • Essayez d'écrire phonétiquement
  • Testez d'autres variantes régionales
  • Ajoutez des pauses autour des mots problématiques

Soucis de Qualité Audio

Solutions :

  • Exportez en MP3 haut débit (192 kbps ou plus)
  • Utilisez le WAV pour la qualité max
  • Évitez de réencoder plusieurs fois
  • Vérifiez les paramètres d'encodage de votre workflow

Erreurs API

Soucis fréquents :

  • Identifiants invalides : vérifiez votre clé de compte de service
  • Quota dépassé : vérifiez vos limites
  • Requête invalide : vérifiez la syntaxe SSML
  • Erreurs réseau : vérifiez la connexion et réessayez

Cas d'Usage de Google TTS

Accessibilité

  • Lecteurs d'écran pour sites et apps
  • Versions audio de contenus écrits
  • Apps d'apprentissage des langues

Création de Contenu

  • Voix off pour vidéos YouTube
  • Intros et outros de podcast
  • Narration e-learning
  • Production d'audiobooks

Applications Métier

  • Serveurs vocaux IVR
  • Notifications vocales
  • Bots de service client
  • Interfaces kiosk

Productivité Personnelle

  • Écouter des articles dans les transports
  • Relire à l'oreille
  • Lecture d'e-mails et documents

Intégrer le TTS à la Création Vidéo

Pour les vidéastes, combiner Google TTS et enregistrement d'écran rend la production efficace.

Workflow avec Vibrantsnap :

  1. Enregistrez votre écran avec Vibrantsnap
  2. Générez la voix off avec Google TTS
  3. Combinez dans Vibrantsnap ou votre éditeur vidéo
  4. Exportez la vidéo soignée

Cette approche sépare la capture visuelle de l'audio, ce qui donne plus de contrôle sur chaque élément.

Conclusion

Google text to speech est devenu un outil vraiment utile pour les créateurs, développeurs et toute personne qui veut générer de l'audio depuis du texte. Des fonctions Android gratuites à l'API Cloud pro, il existe une option pour chaque usage et chaque budget.

Démarrez avec les options gratuites pour comprendre ce que le TTS peut faire pour votre workflow. Quand la qualité ou les fonctionnalités deviennent limitantes, l'API Cloud propose une synthèse vocale pro à un coût raisonnable.

Vous créez du contenu vidéo ? Combinez les voix off Google TTS avec les enregistrements d'écran soignés de Vibrantsnap pour des résultats pros sans avoir à enregistrer votre propre voix.

Votre contenu mérite un audio de qualité, et Google TTS le délivre.