Tout est parti d’une question simple reçue par courriel : comment créer, gratuitement, un fichier audio à partir d’un texte fourni (monologue ou dialogue) ?
Les essais sur plusieurs sites grand public donnent des lectures en français décevantes et les versions gratuites ne permettent généralement pas de télécharger l’audio.
Certains outils « intelligents » prennent trop de liberté et ne respectent pas strictement le texte fourni.
La réponse ci-dessous peut aider bien des enseignants et créateurs de contenu, car le paysage du TTS (Text-to-Speech) évolue très vite.
Petite démonstration :
Lecture de l’article entier (brouillon réalisé en quelques secondes) :
Trois astuces pour donner de la voix à ses textes
1. Les voix « neurales » intégrées à Windows 11
C’est la piste la plus technique, mais aussi la plus prometteuse pour une qualité naturelle sans dépendre d’un service cloud.
Il faut installer les voix depuis les Paramètres de Windows, ajouter un adaptateur SAPI (NaturalVoiceSAPIAdapter), disposer d’une version récente de PowerShell et lancer un petit script enregistré en UTF-8 (par exemple préparé dans NotePad++) [1].
Exemple de script (peut être téléchargé puis lancé chez vous [2]) :
# --- test-voix.ps1 ---
# Comparaison de voix francophones neurales (femmes + hommes)
# Nécessite Python + edge-tts + PowerShell >7.5.4 ; ffmpeg facultatif pour assemblage (comparaison)
$base = "$env:USERPROFILE\Desktop\test-voix"
New-Item -ItemType Directory -Force -Path $base | Out-Null
$phrase = "Comme l'a dit Olivier, le prix du gratuit, c’est finalement un peu de curiosité, beaucoup de patience, et la satisfaction d’obtenir un résultat personnel, durable et sans dépendance à quelque plateforme commerciale."
$voix = @(
# Voix féminines
"fr-FR-DeniseNeural",
"fr-CA-SylvieNeural",
"fr-BE-CharlineNeural",
"fr-FR-BrigitteNeural",
"fr-FR-VivienneNeural",
"fr-CH-ArianeNeural",
# Voix masculines
"fr-FR-HenriNeural",
"fr-BE-GerardNeural",
"fr-FR-ClaudeNeural",
"fr-CA-AntoineNeural"
)
# 1) Génération des fichiers individuels
$i = 1
foreach ($v in $voix) {
$outfile = "$base\$i-$($v).mp3"
Write-Host "Génération : $v ..."
python -m edge_tts --voice $v --text "$phrase" --write-media "$outfile"
$i++
}
# 2) Assemblage avec ffmpeg (si présent)
$ffmpeg = Get-Command ffmpeg -ErrorAction SilentlyContinue
if ($ffmpeg) {
$listfile = "$base\list.txt"
Remove-Item $listfile -ErrorAction SilentlyContinue
$i = 1
foreach ($v in $voix) {
$f = "$base\$i-$v.mp3"
Add-Content -Path $listfile -Value ("file '"+$f+"'")
$i++
}
& ffmpeg -y -f concat -safe 0 -i "$listfile" -c copy "$base\comparatif.mp3"
Write-Host "Fichier final : $base\comparatif.mp3"
} else {
Write-Host "ffmpeg non détecté : fichiers individuels disponibles dans $base"
}
Gardez-le tel quel, remplacez juste la phrase entre guillemets :
$phrase = "..."
Quand tout est en place, on peut générer des fichiers MP3 localement [3].
Le choix du timbre reste subjectif : certaines variantes donnent un rendu très satisfaisant [4].
2. Installer un logiciel local : Balabolka
Quand les offres en ligne se révèlent limitantes, un logiciel moins jeune installé sur la machine reste plus sûr. Balabolka est très stable et exploite les voix présentes sur la machine [5]. Ne le télécharger que depuis le site officiel (cross-plus-a.com) pour éviter les packages indésirables [6].
3. Monter et polir le résultat : Audacity ou même CoolEditPro
Après génération, un léger montage est souvent utile : suppression de respirations, égalisation, fondu, ajout d’un bruit de fond discret, alternance des voix.
Audacity reste l’outil libre de référence (ignorer l’offre d’abonnement) [7].
Ceux qui préfèrent parfois les outils historiques peuvent adapter CoolEditPro à Windows 11 [8].
Le « prix » du gratuit
Ces solutions demandent un investissement en temps et en concentration au départ, souvent le coût caché du « gratuit ». Pour un enseignant bricoleur, ce temps est toutefois payant : autonomie sur les voix, contrôle des données et résultat réutilisable sans abonnement [9] [10].
Le « prix du gratuit », c’est finalement un peu de curiosité, beaucoup de patience et la satisfaction d’obtenir un résultat personnel, durable et sans dépendance à quelque plateforme commerciale.
__________
[1] Les voix « neurales » de Windows 11 utilisent le moteur OneCore et non SAPI 5.
L’adaptateur NaturalVoiceSAPIAdapter permet de les rendre accessibles aux applications SAPI, comme Balabolka.
[2] Pour le lancer, clic droit sur test-voix.ps1, puis Exécuter avec PowerShell.
[3] En pratique, certaines voix dites « neurales » nécessitent encore une connexion Internet, mais la plupart peuvent être installées et utilisées hors ligne.
[4] Mes préférences vont aux voix féminine suisse et masculine belge. Vous verrez !
[5] Balabolka prend en charge les voix SAPI 5 et celles issues de OneCore via l’adaptateur. Il fonctionne sans connexion Internet et peut enregistrer directement en MP3, WAV ou OGG.
[6] Certains sites tiers redistribuent des versions modifiées contenant des installeurs publicitaires.
[7] Depuis 2022, Audacity propose de lier les comptes Audio.com ; ce n’est pas obligatoire pour sauvegarder localement.
[8] CoolEditPro, ancêtre d’Adobe Audition, fonctionne encore via le mode de compatibilité Windows et reste très stable pour l’édition simple.
[9] Le terme « gratuit » doit ici être compris au sens de « sans coût financier direct » : l’investissement principal est cognitif et temporel, lié à la configuration initiale et à la maintenance.
[10] L’ensemble des solutions évoquées sont compatibles avec Windows 11 ; sous Linux, on peut obtenir un résultat comparable avec eSpeak-NG ou RHVoice, mais avec une qualité vocale moindre.
Mode d’emploi express :
installer et utiliser les voix neurales sous Windows 11
1. Installer PowerShell 7
Télécharger le fichier PowerShell-7.x.x-win-x64.msi
depuis [https://github.com/PowerShell/PowerShell/releases].
Pendant l’installation, cocher l’option Add PowerShell to PATH
.
Une fois terminé, ouvrir la nouvelle console pwsh
.
2. Installer Python
Aller sur [https://www.python.org/downloads/windows/].
Cocher Add Python to PATH
à l’installation, indispensable pour exécuter les modules.
3. Installer le module edge-tts
Dans PowerShell 7, exécuter :
pip install edge-tts
Ce module permet d’utiliser les voix neurales de Microsoft en ligne de commande.
4. Installer ffmpeg (facultatif)
Télécharger le fichier ZIP “ffmpeg-release-essentials” depuis [https://www.gyan.dev/ffmpeg/builds/].
Dézipper le dossier et ajouter le répertoire bin
au PATH pour permettre l’assemblage automatique des fichiers audio.
5. Ajouter les voix neurales dans Windows 11
Ouvrir :
Paramètres > Heure et langue > Voix > Gérer les voix > Ajouter des voix
.
Choisir Français (France)
, Français (Belgique)
, Français (Canada)
, etc., puis attendre le téléchargement complet.
6. Vérifier les voix disponibles
Dans PowerShell, taper :
python -m edge_tts --list-voices | Select-String "fr-"
Les plus naturelles : fr-FR-DeniseNeural
, fr-FR-HenriNeural
, fr-CA-SylvieNeural
, fr-BE-CharlineNeural
.
7. Créer le script PowerShell
Copier le contenu du fichier test-voix.ps1
sur le Bureau.
L’enregistrer en encodage UTF-8 (sans BOM) avec un éditeur simple comme NotePad++.
8. Lancer le script
Dans PowerShell 7 :
pwsh "C:\Users\Olivier\Desktop\test-voix.ps1"
Le dossier test-voix
est créé automatiquem
En résumé
En 2025, il devient enfin possible de faire parler ses textes en français avec une qualité quasi humaine, sans passer par des services payants ni dépendre du cloud. Entre les voix neuronales de Windows 11, le script minimaliste en PowerShell 7 + edge-tts, et les outils libres comme Balabolka ou Audacity, chacun peut transformer un texte en véritable enregistrement professionnel depuis son propre ordinateur. L’article montre, pas à pas, comment installer les bonnes voix, lancer un script prêt à l’emploi et comparer les timbres féminins et masculins les plus naturels. Le résultat ? Un MP3 clair, fluide, personnalisé et surtout libre de toute plateforme commerciale.
— Résumé généré par l’IA.