Sommaire
Nouvelle méthode d’Oxford pour détecter les « hallucinations » de l’IA
Les systèmes actuels de deep learning, tels que « Chatbot GB », souffrent souvent de la propagation d’informations erronées, ce que les chercheurs et experts qualifient d' »hallucinations », constituant un obstacle majeur à leur efficacité.
Des chercheurs de plusieurs universités et instituts de recherche tentent de trouver des solutions à ce problème. Dans un nouvel article publié dans la revue scientifique « Nature », des chercheurs du département d’informatique de l’Université d’Oxford décrivent une nouvelle méthode pour détecter les moments où les systèmes d’IA pourraient halluciner.
La méthode décrite dans l’article est capable de distinguer entre les réponses correctes et incorrectes générées par le modèle d’IA avec une précision d’environ 79% du temps, soit environ 10 points de pourcentage de plus que les méthodes leader actuellement disponibles.
Bien que cette méthode ne traite qu’une seule des nombreuses causes d’hallucinations dans les modèles d’IA, et nécessite environ dix fois plus de puissance de calcul qu’une conversation normale avec le robot, ces résultats pourraient ouvrir la voie à des systèmes d’IA plus fiables à l’avenir, selon un rapport publié dans le magazine Time.
Hallucinations de l’IA
Le terme « hallucination » est devenu courant dans le domaine de l’IA, mais il est également controversé. D’une part, il souligne que les modèles ont une sorte d’expérience autonome du monde, ce qui, selon la plupart des informaticiens, n’est pas vrai.
D’un autre côté, le terme indique que ces hallucinations sont un problème résoluble, et non un problème fondamental potentiellement insoluble dans les grands modèles linguistiques. Cela soulève des divergences entre les chercheurs en IA sur la réponse à cette question, mais surtout, le terme est imprécis car il décrit divers types d’erreurs commises par les modèles d’IA, comme le rapporte l’article.
C’est pourquoi l’équipe d’Oxford a décidé de se concentrer sur une catégorie spécifique d’hallucinations, appelée « confabulations », où le modèle d’IA fournit des réponses incorrectes non conformes à une question factuelle, contrairement aux réponses incorrectes conformes qui sont généralement attribuées à d’autres raisons telles que des problèmes dans les données d’entraînement du modèle, ou lorsque le modèle ment pour obtenir un avantage, ou en cas de défaillance structurelle dans sa logique ou sa méthode d’inférence.
« Entropie sémantique » mesure le degré de similitude ou de différence de sens de chaque réponse (Shutterstock).
Méthode simple
La méthodologie employée par l’équipe de recherche pour détecter la propension du modèle à confabuler est relativement simple. Dans un premier temps, les chercheurs demandent à un robot de conversation de fournir un ensemble de réponses, généralement entre 5 et 10 réponses, à la même question. Ensuite, ils utilisent un modèle linguistique différent pour classer ces réponses en fonction de leur signification.
Par exemple, des réponses telles que « Paris est la capitale de la France » et « La capitale de la France est Paris » seraient classées dans le même groupe par le modèle car elles ont la même signification, malgré des formulations différentes. En revanche, une réponse comme « La capitale de la France est Rome » serait classée dans un groupe différent.
Les chercheurs calculent ensuite ce qu’ils ont appelé « l’entropie sémantique », qui mesure le degré de similitude ou de différence de sens de chaque réponse. Si toutes les réponses du modèle ont des significations différentes, l’entropie sémantique sera élevée, indiquant que le modèle est confus et sujet à la confabulation.
Si toutes les réponses du modèle ont des significations similaires ou identiques, l’entropie sémantique sera faible, indiquant que le modèle fournit une réponse cohérente. Cela signifie que le modèle n’est probablement pas enclin à la confabulation, bien que la réponse puisse être fausse, cela relève d’une forme différente d’hallucination, peut-être due à des problèmes dans les données d’entraînement du modèle lui-même.
Les chercheurs ont souligné que la méthode de surveillance de l’entropie sémantique surpasse de nombreuses autres méthodes de détection d’hallucinations dans les modèles d’IA, y compris l’entropie primitive, qui ne détecte que les différences de formulation de phrase et non de signification, ainsi qu’une méthode demandant au modèle lui-même d’évaluer la véracité de ses réponses, en plus d’une autre méthode où le modèle d’IA est ajusté aux bonnes réponses à des questions spécifiques.
Applicabilité Pratique
L’équipe de recherche propose quelques idées sur la manière dont la méthode de détection de « l’entropie sémantique » pourrait commencer à réduire les hallucinations des robots de conversation de pointe actuellement sur le marché. Un des auteurs de l’article de recherche mentionne qu’il serait théoriquement possible pour une entreprise comme OpenAI d’ajouter une option au robot « Chatbot GB », où lorsqu’un utilisateur clique sur une réponse, il recevrait un certain degré de confirmation qui lui donnerait plus de confiance quant à l’exactitude de cette réponse.
Il est également expliqué que cette méthode pourrait également être intégrée à d’autres outils qui reposent sur des modèles d’IA dans des environnements professionnels à haut risque, où l’entreprise ou l’organisation souhaite échanger la vitesse et le coût contre la précision de la réponse.
Alors que l’équipe de recherche est optimiste quant à la capacité de leur méthode à améliorer la fiabilité des systèmes d’IA, certains experts mettent en garde contre une surestimation de son impact immédiat, selon un rapport de Time.
Certains experts soulignent le manque de clarté quant à l’intégration potentielle de cette méthode dans des applications réelles comme les robots de conversation déjà répandus, soulignant que plus les modèles d’IA deviennent performants, plus les gens chercheront à les utiliser dans des tâches plus difficiles où le risque d’échec pourrait augmenter.