La voix off : un métier en voie de disparition ?
Digne d’un scénario de science-fiction, le Nouvel Obs l’écrivait déjà en mars 2014 : les robots sont susceptibles de remplacer certains métiers comme les comptables, les chauffeurs de taxi ou les agents de banque.
Et si les voix de synthèse remplaçaient les comédiens voix off ? Et s’il était possible de reproduire un son si parfait qu’il serait impossible de différencier une voix artificielle d’une voix humaine ?
Isaac Asimov l’a imaginé, Google l’a fait.
Des chercheurs du géant de l’Internet ont travaillé sur le projet Tacotron 2, une solution de voix artificielle qui proposerait un résultat très proche d’une prononciation par un humain.
C’est-à-dire un logiciel qui lit du texte à haute voix, comme il en existe depuis des années. Seulement, là, les résultats sont simplement bluffants.
Écoutez plutôt :
Les voix de synthèse sont désormais capable de rivaliser avec de vraies voix d’humain.
En fonction de la ponctuation, l’intonation et l’emphase sur les mots se transforment, laissant entendre une certaine nuance.
Comment sont produites ces voix étrangement réalistes ?
Les voix de synthèse sont reconstituées (tel du jambon Fleury Michon) à partir de centaines de milliers de mots réellement prononcés par une voix humaine. Les mots artificiels « assemblés », le sont avec de petits bouts de mots réellement prononcés, des morceaux encore plus petits que des syllabes : des phonèmes.
Ils sont le plus petit composant d’un son de voix. En les additionnant les uns aux autres, nous créons un nouveau mot. En “lissant” ce mot, via un programme de modulation de la hauteur du son (exemple le plus connus, utilisé par les rappeurs : Auto Tune, il permet grossomodo de chanter « juste » mais de façon totalement artificielle), nous pouvons obtenir un ensemble de mots fluides les uns avec les autres, en cohérence avec une vraie prononciation humaine.
Des voix artificielles pour toutes les applications de la voix parlée ?
Imaginez une voix de synthèse faire des voix de GPS, d’assistant vocal ou de e-learning. Cela existe déjà. Ce sont des supports pour la voix, où l’interprétation demandée est le plus souvent monocorde et neutre.
Imaginez cette même voix pour un spot TV, un documentaire ou un doublage de film, où le jeu restitue bien plus d’émotion. Comment une voix de synthèse pourrait reproduire de tels contrastes ?
Impossible à concevoir aujourd’hui, mais d’ici 10 ou 15 ans ? Avec des algorithmes encore plus sophistiqués ?
Impossible pour le moment de rivaliser avec une vraie voix humaine. Vous imaginez, vous, une voix de synthèse avec un accent provençal ?