Faire « parler » son texte

Panorama des solutions TTS vraiment gratuites et efficaces, fin 2025

Tout est parti d’une question simple reçue par courriel : comment créer, gratuitement, un fichier audio à partir d’un texte fourni (monologue ou dialogue) ?
Les essais sur plusieurs sites grand public donnent des lectures en français décevantes et les versions gratuites ne permettent généralement pas de télécharger l’audio.
Certains outils « intelligents » prennent trop de liberté et ne respectent pas strictement le texte fourni.
La réponse ci-dessous peut aider bien des enseignants et créateurs de contenu, car le paysage du TTS (Text-to-Speech) évolue très vite.

—

Petite démonstration :

Lecture de l’article entier (brouillon réalisé en quelques secondes) :

Trois astuces pour donner de la voix à ses textes

1. Les voix « neurales » intégrées à Windows 11

C’est la piste la plus technique, mais aussi la plus prometteuse pour une qualité naturelle sans dépendre d’un service cloud.

Il faut installer les voix depuis les Paramètres de Windows, ajouter un adaptateur SAPI (NaturalVoiceSAPIAdapter), disposer d’une version récente de PowerShell et lancer un petit script enregistré en UTF-8 (par exemple préparé dans NotePad++) [1].

Exemple de script (peut être téléchargé puis lancé chez vous [2]) :

# --- test-voix.ps1 ---
# Comparaison de voix francophones neurales (femmes + hommes)
# Nécessite Python + edge-tts + PowerShell >7.5.4 ; ffmpeg facultatif pour assemblage (comparaison)

$base = "$env:USERPROFILE\Desktop\test-voix"
New-Item -ItemType Directory -Force -Path $base | Out-Null

$phrase = "Comme l'a dit Olivier, le prix du gratuit, c’est finalement un peu de curiosité, beaucoup de patience, et la satisfaction d’obtenir un résultat personnel, durable et sans dépendance à quelque plateforme commerciale."

$voix = @(
  # Voix féminines
  "fr-FR-DeniseNeural",
  "fr-CA-SylvieNeural",
  "fr-BE-CharlineNeural",
  "fr-FR-BrigitteNeural",
  "fr-FR-VivienneNeural",
  "fr-CH-ArianeNeural",

  # Voix masculines
  "fr-FR-HenriNeural",
  "fr-BE-GerardNeural",
  "fr-FR-ClaudeNeural",
  "fr-CA-AntoineNeural"
)

# 1) Génération des fichiers individuels
$i = 1
foreach ($v in $voix) {
  $outfile = "$base\$i-$($v).mp3"
  Write-Host "Génération : $v ..."
  python -m edge_tts --voice $v --text "$phrase" --write-media "$outfile"
  $i++
}

# 2) Assemblage avec ffmpeg (si présent)
$ffmpeg = Get-Command ffmpeg -ErrorAction SilentlyContinue
if ($ffmpeg) {
  $listfile = "$base\list.txt"
  Remove-Item $listfile -ErrorAction SilentlyContinue
  $i = 1
  foreach ($v in $voix) {
    $f = "$base\$i-$v.mp3"
    Add-Content -Path $listfile -Value ("file '"+$f+"'")
    $i++
  }
  & ffmpeg -y -f concat -safe 0 -i "$listfile" -c copy "$base\comparatif.mp3"
  Write-Host "Fichier final : $base\comparatif.mp3"
} else {
  Write-Host "ffmpeg non détecté : fichiers individuels disponibles dans $base"
}

Fichier de démonstration, exécutable dans PowerShell > 7.5.4
Gardez-le tel quel, remplacez juste la phrase entre guillemets : $phrase = "..."

Quand tout est en place, on peut générer des fichiers MP3 localement [3].
Le choix du timbre reste subjectif : certaines variantes donnent un rendu très satisfaisant [4].

2. Installer un logiciel local : Balabolka

Quand les offres en ligne se révèlent limitantes, un logiciel moins jeune installé sur la machine reste plus sûr. Balabolka est très stable et exploite les voix présentes sur la machine [5]. Ne le télécharger que depuis le site officiel (cross-plus-a.com) pour éviter les packages indésirables [6].

3. Monter et polir le résultat : Audacity ou même CoolEditPro

Après génération, un léger montage est souvent utile : suppression de respirations, égalisation, fondu, ajout d’un bruit de fond discret, alternance des voix.

Audacity reste l’outil libre de référence (ignorer l’offre d’abonnement) [7].

Ceux qui préfèrent parfois les outils historiques peuvent adapter CoolEditPro à Windows 11 [8].

Le « prix » du gratuit

Ces solutions demandent un investissement en temps et en concentration au départ, souvent le coût caché du « gratuit ». Pour un enseignant bricoleur, ce temps est toutefois payant : autonomie sur les voix, contrôle des données et résultat réutilisable sans abonnement [9] [10].

Le « prix du gratuit », c’est finalement un peu de curiosité, beaucoup de patience et la satisfaction d’obtenir un résultat personnel, durable et sans dépendance à quelque plateforme commerciale.

Mode d’emploi express :
installer et utiliser les voix neurales sous Windows 11

1. Installer PowerShell 7
Télécharger le fichier PowerShell-7.x.x-win-x64.msi depuis [https://github.com/PowerShell/PowerShell/releases].
Pendant l’installation, cocher l’option Add PowerShell to PATH.
Une fois terminé, ouvrir la nouvelle console pwsh.

2. Installer Python
Aller sur [https://www.python.org/downloads/windows/].
Cocher Add Python to PATH à l’installation, indispensable pour exécuter les modules.

3. Installer le module edge-tts
Dans PowerShell 7, exécuter :

pip install edge-tts

Ce module permet d’utiliser les voix neurales de Microsoft en ligne de commande.

4. Installer ffmpeg (facultatif)
Télécharger le fichier ZIP “ffmpeg-release-essentials” depuis [https://www.gyan.dev/ffmpeg/builds/].
Dézipper le dossier et ajouter le répertoire bin au PATH pour permettre l’assemblage automatique des fichiers audio.

5. Ajouter les voix neurales dans Windows 11
Ouvrir :

Paramètres > Heure et langue > Voix > Gérer les voix > Ajouter des voix

.
Choisir Français (France), Français (Belgique), Français (Canada), etc., puis attendre le téléchargement complet.

6. Vérifier les voix disponibles
Dans PowerShell, taper :

python -m edge_tts --list-voices | Select-String "fr-"

Les plus naturelles : fr-FR-DeniseNeural, fr-FR-HenriNeural, fr-CA-SylvieNeural, fr-BE-CharlineNeural.

7. Créer le script PowerShell
Copier le contenu du fichier test-voix.ps1 sur le Bureau.
L’enregistrer en encodage UTF-8 (sans BOM) avec un éditeur simple comme NotePad++.

8. Lancer le script
Dans PowerShell 7 :

pwsh "C:\Users\Olivier\Desktop\test-voix.ps1"

Le dossier test-voix est créé automatiquem

__________

[1] Les voix « neurales » de Windows 11 utilisent le moteur OneCore et non SAPI 5.
L’adaptateur NaturalVoiceSAPIAdapter permet de les rendre accessibles aux applications SAPI, comme Balabolka.

[2] Pour le lancer, clic droit sur test-voix.ps1, puis Exécuter avec PowerShell.

[3] En pratique, certaines voix dites « neurales » nécessitent encore une connexion Internet, mais la plupart peuvent être installées et utilisées hors ligne.

[4] Mes préférences vont aux voix féminine suisse et masculine belge. Vous verrez !

[5] Balabolka prend en charge les voix SAPI 5 et celles issues de OneCore via l’adaptateur. Il fonctionne sans connexion Internet et peut enregistrer directement en MP3, WAV ou OGG.

[6] Certains sites tiers redistribuent des versions modifiées contenant des installeurs publicitaires.

[7] Depuis 2022, Audacity propose de lier les comptes Audio.com ; ce n’est pas obligatoire pour sauvegarder localement.

[8] CoolEditPro, ancêtre d’Adobe Audition, fonctionne encore via le mode de compatibilité Windows et reste très stable pour l’édition simple.

[9] Le terme « gratuit » doit ici être compris au sens de « sans coût financier direct » : l’investissement principal est cognitif et temporel, lié à la configuration initiale et à la maintenance.

[10] L’ensemble des solutions évoquées sont compatibles avec Windows 11 ; sous Linux, on peut obtenir un résultat comparable avec eSpeak-NG ou RHVoice, mais avec une qualité vocale moindre.

Olivier Delhaye

Contributeur/-trice

Profil

Professionnel de l’enseignement supérieur avec plus de 35 ans d’expérience en linguistique, expert en méthodologie d’enseignement des langues et évaluation des compétences. …

Nous contacter

Informations

Réseaux