Une AI copie n'importe quelle voix en 3 secondes… aïe aïe aïe

le 16 mars 2023 - 16h23

Alors que la version 4 de ChatGPT (pas encore à disposition du grand public) vient de réussir l’examen du barreau haut la main, une autre AI de chez Microsoft, nommée Vall-E, est capable d'imiter n'importe quelle voix en 3 secondes. Aïe Aïe aïe.

Les AI avancent vite, très vite, prêtent à nous engloutir jusqu'à notre dernier atome. Avant d'en arriver là, Vall-E, AI de chez Microsoft, est désormais capable d'imiter une voix en trois secondes. Fonctionnant qu'en anglais pour le moment, elle pose déjà de nombreuses questions, à commencer par la performance des deepfakes qui seront forcément de plus en plus troublants, joignant déjà à une image numérique quasi conforme à l'originale, le bon timbre de voix, sans accrocs ni effets saccadés. Bluffant.

 

Et si James Dean revenait ?

Modèle de génération de parole à partir de texte (text-to-speech synthesis ou TTS), Vall-E nécessite un texte écrit donc, celui qui sera déclamé virtuellement, et un modèle de voix à imiter, peu importe le contenu. Loin d'être robotique, le rendu issu d'un entraînement de l'AI à partir de 60 000 heures d’enregistrement en anglais avec 7 000 personnes différentes, est carrément étonnant. Jugez-en par vous-même avec la démo de Vall-E mise en ligne par Microsoft ici. 

 

Les débouchés pour de telles AI sont immenses bien sûr, et dans tous les domaines. Mais a-t-on réellement hâte de découvrir au cinéma le tout premier James Dean ou Marilyn virtuels plus vrais que nature ? Pas sûr… Sources : Capital / Arvix

pour continuer