Sommaire
# Google IO 2024 : Les annonces phares de l’ère Gemini
Dans la continuité de la rivalité actuelle en intelligence artificielle, Google s’est concentré lors de sa conférence des développeurs « I/O » 2024 sur les nouvelles fonctionnalités de son modèle d’IA générative « Gemini ». Le discours d’ouverture, prononcé par Sundar Pichai, PDG de Google, a mentionné le terme « intelligence artificielle » 121 fois, soulignant ainsi l’importance de ce domaine pour la société. Voici un résumé des points les plus importants du discours d’ouverture lors de la conférence I/O de Google.
Le nouvel ère Gemini
Sundar Pichai a annoncé que la version « Gemini 1.5 Pro » ajoutera un cadre contextuel élargi capable de comprendre jusqu’à 2 millions de « tokens ». En comparaison, la version actuelle peut traiter un million de tokens. Google a intégré de nouvelles fonctionnalités au modèle « Gemini » d’intelligence artificielle, parmi lesquelles le « Gems » (Bijoux), une option de personnalisation permettant aux utilisateurs de créer des versions personnalisées de l’IA avec différentes personnalités. Le « Gems » permet de créer des versions de bots de conversation qui peuvent aider dans des tâches spécifiques et conserver des caractéristiques définies, similaire à la création de bots personnalisés sur Character.AI, une plateforme permettant de converser avec des versions virtuelles de célébrités ou même un psychologue virtuel.
Version « Gemini 1.5 Pro »
Cette fonctionnalité rappelle le magasin GPT d’OpenAI, qui permet de créer des versions personnalisées du célèbre ChatGPT. Par ailleurs, l’assistant IA « Gemini » va bénéficier de nouvelles capacités de conversation vocale pour les abonnés au service « Gemini Advanced » cette année, sous le nom de « Gemini Live ». Cette fonctionnalité permettra de converser de vive voix avec le bot, en plus de lui offrir des compétences d’assistant intelligent et des fonctionnalités de vision similaires à celles annoncées pour le GPT-4.0 d’OpenAI.
Compétitions et Comparaisons
Google prévoit d’améliorer le modèle « Gemini » sur Android afin que l’intelligence artificielle puisse mieux utiliser les informations affichées à l’écran. Par exemple, un assistant numérique « Gemini » sur Android peut résumer ou répondre à des questions sur des pages web ouvertes ou des captures d’écran. Bientôt, il pourra également détecter les vidéos affichées à l’écran et inviter l’utilisateur à poser des questions à leur sujet. L’IA utilise les sous-titres automatiques pour trouver des réponses, une fonctionnalité déjà accessible par d’autres moyens.
Actualisation des modèles
![Images de la conférence des développeurs Google 2024 – source: Google](https://aljazeera.net/wp-content/uploads/2024/05/%D9%A9%D9%A8%D9%A9%D9%A8%D9%A95-1715750769.png?w=770&resize=770%2C513)
Assistant IA « Gemini » avec de nouvelles capacités de conversation vocale cette année (Google)
Depuis l’édition 2023 de la conférence, où Google avait déclaré voir l’intelligence artificielle comme l’avenir de la recherche en ligne, cette vision s’est précisée. Cette année, Google introduira des « résumés d’IA » (AI Overviews), connus auparavant sous le nom d' »expérience de recherche générative » (SGE), d’abord aux États-Unis, puis dans le monde entier. Bientôt, les milliards d’utilisateurs de Google verront un résumé généré par l’IA en haut de leurs résultats de recherche, marquant potentiellement le début d’un changement majeur dans l’expérience de recherche sur Google.
Mises à jour significatives
Lors de la conférence, Google a présenté une version préliminaire de ce qu’elle espère être un assistant personnel omniprésent, nommé « Projet Astra ». Cet assistant multimédia d’IA en temps réel pourra observer le monde, connaître la position des objets et aider dans une variété d’autres tâches, un type d’agent d’IA capable d’exécuter des tâches au lieu de simplement répondre aux questions.
Projets futuristes
Google a également dévoilé de nouveaux modèles, comme « Gemini 1.5 Flash », conçu pour accomplir plus rapidement des tâches générales comme la synthèse de contenu et le commentaire de vidéos, et « Veo », capable de générer des vidéos à partir de directives textuelles données par l’utilisateur. Parallèlement, le modèle « Gemini Nano », conçu pour fonctionner sur des appareils internes comme les smartphones et les PC, devrait également devenir plus rapide. Ce modèle allégé sera intégré au navigateur Chrome sur ordinateur, où il exploitera l’IA embarquée pour aider les utilisateurs à rédiger des publications sur les réseaux sociaux, des critiques de produits et autres directement depuis le navigateur.
Nouveaux modèles
![Images de la conférence des développeurs Google 2024 – source: Google](https://aljazeera.net/wp-content/uploads/2024/05/%D9%A9%D9%A8%D9%A9%D9%A8%D9%A92-1715750740.png?w=770&resize=770%2C513)
Lors de l’édition 2023, Google voyait l’IA comme l’avenir de la recherche en ligne (Google)
Google a annoncé lors de la conférence des développeurs que son modèle le plus récent « Gemini 1.5 Pro » sera intégré dans la barre latérale des applications Google Docs, Sheets, Slides et Gmail. Ce même assistant numérique sera disponible dans toutes ces applications compte tenu des informations enregistrées par l’utilisateur. Le but est de lier toutes les applications de la suite Workspace de manière plus fluide avec « Gemini ». Pour les utilisateurs des services Workspace et AI Premium sous Google One, l’application Gmail sur mobile bénéficiera d’une version de l’assistant numérique « Gemini » dès le mois prochain, leur permettant de poser des questions ou de rédiger des réponses en fonction du contexte des emails. De plus, Google Photos, déjà performante en recherche, intégrera l’IA « Gemini » pour aller encore plus loin avec la nouvelle fonctionnalité « Ask Photos », permettant de comprendre plus en profondeur les requêtes des utilisateurs pour des résultats plus complexes, disponible cet été. Enfin, avec une autre nouveauté dans Google Lens, les utilisateurs pourront rechercher en ligne en filmant une vidéo avec leur téléphone et en posant des questions au modèle, rendue possible grâce au large cadre contextuel de « Gemini ».
Fonctionnalités nouvelles