A lire

Quelques secondes d’enregistrement pour synthétiser une voix, c’est possible

Jusqu’ici, pour qu’un ordinateur puisse imiter des voix avec un haut degré de précision, il lui fallait des heures et des heures pour récolter des quantités de sons « modèles » nécessaires. A priori, Baidu, un géant technologique chinois, affirme être en mesure de synthétiser une voix à partir d’un enregistrement original de moins d’une minute.

La technologie de la synthèse vocale évolue très vite avec l’arrivée et l’utilisation des réseaux neuronaux. En 2017, Baidu, que l’on présente comme le “Google chinois”, a présenté une technologie baptisée Baidu Deep Voice. Il suffisait d’un enregistrement de 30 minutes pour pouvoir synthétiser une voix. La course et la concurrence ne faisaient que commencer, et rapidement VoCo, un logiciel d’Adobe, a annoncé se contentait de 20 minutes d’audio. La start-up canadienne Lyrebird, a alors affirmé pouvoir gérer avec une minute seulement une voix originale.

Baidu ne s’est pas laissé compter, et revient sur le devant de la scène en annonçant en ce début de 2018, être en mesure de synthétiser une voix à partir de quelques dizaines de secondes de voix seulement avec une qualité telle que selon The New Scientist, lors de tests, la voix synthétisée par le logiciel de Baidu était identifiée dans 95 % des cas comme appartenant à la personne. De plus, le logiciel de Baidu est capable de gérer le chinois comme l’anglais.

Cette course effrénée, ne doit faire oublier les implications que tout cela induit. Une fois la phase d’étonnement face à la prouesse technique, vient celle de l’inquiétude face au potentiel d’utilisation de cette technique à des fins de fraude. En effet, dans le même temps, il n’a échappé à personne, que les banques par exemple se lancent dans la « biométrie vocale », c’est-à-dire l’identification du client rien que par sa voix sur leurs plateformes d’appel. On imagine facilement toutes les possibilités d’arnaques et de préjudices que cela peut engendrer.

On peut en effet bientôt faire dire tout et n’importe quoi à n’importe qui. Si l’on rajoute la facilité de remplacer les visages, on peut imaginer que le temps du “fake” ne fait que commencer.

Crédit photo : simone.brunozzi

 

Laisser un commentaire