Table of Contents
OpenAI lance de nouveaux outils pour améliorer les assistants vocaux IA
OpenAI, le créateur de ChatGPT, a récemment annoncé de nouvelles fonctionnalités destinées à améliorer la construction d’assistants vocaux basés sur l’IA. En pleine compétition avec les géants technologiques, l’entreprise met en avant un nouvel outil de réglage fin post-entraînement, qui permettra aux développeurs d’affiner les réponses générées par les modèles à partir d’images et de texte.
Des innovations vocales intégrées dans ChatGPT
Depuis un an, OpenAI a enrichi son assistant vocal ChatGPT, permettant aux utilisateurs d’interagir non seulement par écrit, mais également par la voix et via des images. Cette fonctionnalité innovante permet de converser avec le chatbot de manière plus naturelle. Pour utiliser cette option, il suffit d’appuyer sur un bouton et de poser une question à voix haute. ChatGPT transcrit la demande en texte, génère une réponse via son modèle de langage, puis la restitue de manière audible.
Nouveaux outils pour les développeurs
En octobre 2024, OpenAI a présenté plusieurs outils pour faciliter la création d’applications d’IA. Un nouvel outil en temps réel permet de développer des applications vocales à partir d’un seul ensemble d’instructions, simplifiant ainsi le processus. Auparavant, les développeurs devaient suivre plusieurs étapes, ce qui compliquait la conception d’applications.
De plus, l’outil de réglage fin permettra d’améliorer la qualité des réponses grâce à un retour d’information humain, offrant ainsi des exemples de réponses satisfaisantes ou non. L’intégration d’images dans ce processus augmentera la capacité des modèles à comprendre les visuels, avec des applications potentielles dans la recherche visuelle et la détection d’objets, notamment pour les véhicules autonomes.
Un environnement concurrentiel en pleine expansion
OpenAI se positionne au cœur de la compétition croissante dans le secteur de l’IA, face à des entreprises comme Alphabet, la maison mère de Google, qui incorporent des modèles d’IA pour analyser divers types d’informations. Une part importante des revenus d’OpenAI provient des entreprises qui utilisent ses services pour leurs propres applications d’intelligence artificielle, rendant le déploiement de ces nouvelles capacités crucial pour son développement commercial.
Prévisions financières optimistes
OpenAI projette son chiffre d’affaires à 11,6 milliards de dollars pour l’année prochaine, en augmentation significative par rapport à 3,7 milliards de dollars en 2024. La société est aussi engagée dans une levée de fonds de 6,5 milliards de dollars, ce qui pourrait valoriser l’entreprise à 150 milliards de dollars.
Fonctionnalités avancées du mode vocal
En août 2024, OpenAI a lancé la version alpha de sa fonctionnalité « Advanced Voice Mode », alimentée par GPT-4o, un modèle innovant formé sur la voix, le texte et les images. Cette combinaison unique permet des interactions multimodales excitantes, bien que parfois imprévisibles. Les premiers tests montrent que ce mode vocal permet des conversations en temps réel, où les utilisateurs peuvent interagir avec ChatGPT presque instantanément, y compris en interrompant l’IA pendant qu’elle parle.
Une des caractéristiques surprenantes de ce mode est la capacité d’imiter des comportements humains, tels que la respiration, ainsi que la possibilité pour l’IA de reproduire des voix, ce qui a suscité des réactions mitigées parmi les utilisateurs.
Ces avancées soulignent l’engagement d’OpenAI à innover dans le domaine de l’IA vocale, tout en naviguant dans un paysage concurrentiel en rapide évolution.