Sommaire
OpenAI : des changements majeurs annoncés lors du DevDay
OpenAI a récemment révélé des mises à jour significatives lors de son DevDay organisé à San Francisco le 1er octobre 2024. Parmi les quatre nouveautés présentées figurent la Realtime API, qui promet des capacités de synthèse vocale rapides, ainsi que Prompt Caching, une fonctionnalité visant à réduire les coûts et la latence. De plus, la mise à jour Vision fine-tuning permet aux développeurs d’affiner GPT-4o avec des images, cette option étant réservée aux utilisateurs payants.
Restructuration vers une société à but lucratif
Des rapports récents indiquent qu’OpenAI envisage de restructurer son activité principale pour devenir une société à but lucratif, échappant ainsi au contrôle de son conseil d’administration à but non lucratif. Selon les informations disponibles, l’organisation à but non lucratif continuera d’exister et détiendra une participation minoritaire dans la nouvelle entité lucrative. Ce changement marquerait un tournant majeur pour la start-up, actuellement leader dans le domaine de l’intelligence artificielle (IA). Cette transition pourrait également influencer la gestion des risques liés à l’IA au sein d’une nouvelle structure de gouvernance.
Nouveautés annoncées
Lors de cet événement, OpenAI a présenté quatre mises à jour clés : Realtime API, Prompt Caching, Model Distillation et Vision fine-tuning. Les équipes de développement ont veillé à ce que ces ajouts soient accessibles dès leur annonce, avec la possibilité d’ajustements en fonction des retours des utilisateurs.
Realtime API
Parmi les innovations notables, la Realtime API se distingue par sa capacité à permettre aux développeurs de créer des expériences de synthèse vocale rapides au sein de leurs applications. La version bêta publique de cette API a été lancée, offrant une performance similaire au modèle vocal avancé de ChatGPT. Cela signifie que tous les développeurs payants peuvent désormais intégrer des expériences multimodales à faible latence dans leurs projets.
Les entrées et sorties audio dans l’API Chat Completions permettent de répondre aux demandes qui ne nécessitent pas les avantages de faible latence offerts par la Realtime API. Désormais, il est possible d’envoyer du texte ou de l’audio à GPT-4o, qui répondra sous forme de texte, d’audio ou les deux, simplifiant ainsi le processus de création d’assistants vocaux.
Prompt Caching
La fonctionnalité Prompt Caching vise à aider les développeurs d’applications d’IA à réduire tant les coûts que la latence. Grâce à l’utilisation de jetons d’entrée récemment vus, cette fonctionnalité peut offrir jusqu’à 50 % de réduction et des temps de traitement plus rapides, comme l’a indiqué un communiqué interne d’OpenAI. Cette optimisation est appliquée automatiquement aux dernières versions de GPT-4o et à ses variantes.
Model Distillation
Une autre mise à jour, appelée Model Distillation, introduit un flux de travail intégré permettant de gérer le pipeline de distillation directement sur la plateforme OpenAI. Cette fonctionnalité facilite l’utilisation des résultats des modèles avancés pour améliorer les performances de modèles plus économiques, réduisant ainsi la nécessité de nombreuses étapes manuelles.
Vision fine-tuning
OpenAI a également étendu les capacités de réglage fin à son modèle GPT-4o, permettant désormais le réglage de fin par vision. Cette fonctionnalité est accessible uniquement aux abonnés payants et fonctionne de manière analogue au réglage par texte : les développeurs peuvent préparer et télécharger leurs ensembles de données d’images en suivant le format prévu sur la plateforme.
Tensions internes et préoccupations de sécurité
Ces nouveautés interviennent dans un contexte tendu pour l’entreprise, marquée par des départs au sein de l’équipe dirigeante. Fin septembre 2024, le directeur technologique, le directeur de la recherche et le vice-président de la recherche ont annoncé leur départ. Sur les onze cofondateurs initiaux, seuls deux demeurent dans l’entreprise, dont Sam Altman, le PDG actuel.
Ces départs soulèvent des interrogations sur la gouvernance d’OpenAI et sa capacité à gérer les défis éthiques et sécuritaires liés à l’intelligence artificielle, en particulier après le retour controversé de Sam Altman suite à son éviction en 2023. Cela alimente les débats sur la responsabilité du laboratoire dans son ambition d’atteindre l’AGI (intelligence artificielle générale).