Table of Contents
L’avenir incertain des narrateurs humains face à l’intelligence artificielle
Le futur des livres audio suscite un débat intense à l’heure où l’intelligence artificielle progresse. Pour certains, elle représente une évolution et une décentralisation dans la production culturelle. Pour d’autres, elle menace la dimension humaine et la chaleur de la narration.
Les coûts élevés liés à l’enregistrement des livres audio, nécessitant parfois des heures de lecture, poussent certains producteurs à adopter des technologies de clonage vocal et à recourir à des voix synthétiques. Ce phénomène a récemment été mis en lumière lors du Salon du Livre de Paris.
Des voix célèbres et des comédiens au service de la narration
Plusieurs personnalités politiques ont déjà relevé ce défi. L’ancien président français Nicolas Sarkozy a enregistré plus de 13 heures de ses mémoires présidentielles Le Temps des tempêtes en 2021. De même, l’ex-président américain Barack Obama a prêté sa voix à son ouvrage A Promised Land en 2020, pour un enregistrement de 29 heures.
Dans d’autres cas, des comédiens professionnels ont été sollicités. En France, Doni Podalydès a donné vie à la voix de Martin Eden de Jack London, tandis que Lola Naymark a prêté sa voix au roman Les Sirènes de Kamal Daoud, lauréat du prestigieux prix Goncourt.
La montée en puissance de l’intelligence artificielle dans la production des livres audio
Malgré ces pratiques traditionnelles, l’avenir de ce secteur reste flou face à l’essor croissant de l’IA dans la production de livres audio. Le Salon du Livre de Paris, tenu du 11 au 13 avril, a été le théâtre d’annonces importantes à ce sujet.
La société française Librenova, leader de l’auto-édition, a présenté une technologie de clonage vocal. Selon elle, cette technique offre une qualité nettement supérieure aux voix synthétiques habituelles, souvent perçues comme robotiques et artificielles.
Le procédé consiste à enregistrer un court extrait du livre par l’auteur, puis l’intelligence artificielle prend le relais pour lire le reste du texte avec la même intonation, créant ainsi une expérience d’écoute cohérente et réaliste.
Certains auditeurs préfèrent néanmoins la voix humaine, qui offre une proximité plus grande et une intonation plus nuancée.
Livres audio à voix synthétiques : une stratégie pour démocratiser l’accès
La plateforme de streaming Spotify a investi un million d’euros dans la production de livres audio narrés par des voix artificielles, utilisant des technologies d’IA de plus en plus précises pour imiter la voix humaine.
Spotify souligne que les coûts élevés de production et la dépendance aux livres audio limitent la disponibilité de contenus en français. Les voix synthétiques pourraient ainsi élargir l’offre tout en réduisant les coûts, rendant les livres audio accessibles à un public plus large.
La plateforme affiche une transparence totale, indiquant clairement si la voix utilisée est humaine ou synthétique, laissant ainsi le choix à l’auditeur.
Spotify ne délaisse pas pour autant les narrations humaines, continuant à soutenir ces productions en partenariat avec des maisons d’édition. Arthur de Saint-Vincent, PDG de la maison d’édition Augo, a déclaré à l’AFP que Spotify aide les éditeurs en finançant une partie des coûts de production.
Dans le cadre d’un partenariat entre Augo et la maison mère Gléna, 200 nouveaux livres audio seront produits dans les trois prochaines années. Selon Arthur de Saint-Vincent, l’objectif est de garantir une qualité élevée grâce au choix rigoureux des voix et à la collaboration avec des comédiens professionnels, tout en préservant les valeurs éditoriales et artistiques.
Cependant, cette approche reste inaccessible à nombre de petites maisons d’édition, qui ne disposent pas des ressources nécessaires pour suivre ces investissements importants.
Pourquoi la voix humaine reste privilégiée
En 2021, Audible, la plateforme mondiale leader des livres audio détenue par Amazon, expliquait sur son site français :
- Initialement, les livres audio utilisaient des voix synthétiques générées par ordinateur.
- Aujourd’hui, la voix humaine est préférée car elle offre une proximité plus grande avec l’auditeur.
- Elle confère au texte une intonation plus profonde et chaleureuse.
Pourtant, quatre ans plus tard, une recherche du terme « voix virtuelle » dans la bibliothèque anglaise d’Audible donne plus de 50 000 résultats, majoritairement d’auteurs indépendants, preuve de l’expansion rapide de cette technologie.
Les avis du public sur la qualité varient :
- Certains saluent la rapidité des progrès technologiques.
- D’autres doutent de la capacité de ces voix à transmettre les émotions et les complexités des personnages littéraires.
Sur la plateforme X, Alessia, auteure anglophone publiant sur Amazon, a écrit : « Je ne pense pas que la narration par intelligence artificielle soit capable de transmettre les émotions des personnages de façon convaincante. »
Si les voix artificielles ne bafouillent pas et prononcent correctement les noms, elles restent limitées dans leur expressivité. Elles peinent à exprimer l’agacement, la gêne, le rire ou les larmes, et manquent de nuances dynamiques comme l’accélération ou le ralentissement en fonction du rythme narratif.