Sommaire
Les Nouvelles Innovations de Meta : Llama 3.2 et Avancées Multimodales
La conférence annuelle « Connect » de Meta est le moment idéal pour la société de présenter ses dernières innovations, parmi lesquelles Orion, ses lunettes de réalité augmentée révolutionnaires. C’est également l’occasion de faire le point sur les progrès en matière d’intelligence artificielle (IA) générative.
En août dernier, Meta, la maison mère de Facebook et Instagram, révélait que ses modèles Llama approchaient les 350 millions de téléchargements. Après avoir présenté sa nouvelle gamme de modèles Llama 3.1 en juillet, la firme a récemment lancé la version 3.2, qui comprend quatre modèles open source.
Des Modèles Multimodaux Performants mais Limités en Europe
Cette mise à jour marque un tournant pour Meta, car elle introduit deux modèles multimodaux. Dotés respectivement de 11 et 90 milliards de paramètres, ces modèles sont conçus pour remplacer leurs homologues de texte tout en excédant les tâches de compréhension d’images, surpassant des modèles fermés comme Claude 3 Haiku.
Dans plusieurs pays, il est possible de télécharger et d’utiliser les modèles multimodaux Llama sur des plateformes cloud telles qu’AWS, Google Cloud, Hugging Face, ou Microsoft Azure. Toutefois, en Europe, les versions 11B et 90B ne sont pas disponibles en raison de réglementations strictes. Par ailleurs, diverses fonctionnalités de Meta AI, comme l’analyse d’images, sont désactivées pour les utilisateurs européens. Néanmoins, grâce à cette mise à jour, l’assistant de Meta est désormais accessible sur toutes les plateformes du groupe (Messenger, Facebook, WhatsApp et Instagram).
Comparaison des Performances avec d’Autres Modèles
Meta a choisi de comparer les performances des modèles Llama 3.2 avec celles de modèles de fondation réputés, tels que Claude 3 Haiku et GPT-4o mini, en ce qui concerne la reconnaissance d’images et diverses tâches de compréhension visuelle. Les résultats montrent que les modèles 11B et 90B dépassent légèrement ces concurrents.
Capacités d’Interprétation Multimodale
Les modèles pré-entraînés peuvent être affinés pour des applications spécifiques et sont utilisables localement ou via l’assistant de Meta AI. Ils prennent en charge des cas d’utilisation variés en raisonnement d’image, comme l’analyse de documents, le sous-titrage d’images, ou encore le repérage directionnel d’objets selon des descriptions en langage naturel.
Un exemple concret illustre cette capacité : une question posée concernant les meilleures ventes d’une petite entreprise peut être traitée par Llama 3.2 en utilisant un graphique pour fournir rapidement une réponse. De même, le modèle peut analyser une carte pour répondre à des interrogations telles que le moment où une randonnée devient plus raide ou la distance d’un sentier spécifique.
Modèles Compactes pour Applications Mobiles
En parallèle, Meta a développé deux nouveaux modèles plus petits, de 1 et 3 milliards de paramètres, optimisés pour la génération de texte multilingue et l’appel d’outils. Ces modèles sont compatibles avec du matériel tel que Qualcomm et MediaTek, et sont optimisés pour les processeurs ARM. Les développeurs pourront ainsi créer des applications personnalisées, par exemple, une application qui résume les derniers messages reçus ou qui envoie directement des invitations de calendrier pour des réunions.
Cette approche offre deux avantages clés : un traitement quasi instantané des requêtes, puisque cela se fait localement, et une meilleure protection de la vie privée, car aucune donnée n’est envoyée au cloud. Cela garantit que les informations sensibles restent sur l’appareil de l’utilisateur.
Lamma Guard 3 : Vers une Sécurité Renforcée
Au-delà de ces quatre nouveaux modèles, Meta met également l’accent sur la sécurité avec le lancement de Llama Guard 3 11B Vision, qui améliore la fonction de compréhension d’image de Llama 3.2. Cet outil filtre les requêtes de saisie et les réponses afin d’assurer un niveau de sécurité accru, et est conçu pour fonctionner efficacement sur mobile, réduisant considérablement sa taille pour augmenter son efficacité.