Chatbots L’intelligence artificielle a tendance à ajouter des erreurs et des « hallucinations » lorsque vous souhaitez répondre – ordinateur.

La plate-forme de test de Giskard française publie l’étude qui se concentre sur l’analyse des chatbots concernant les effets des « images obsédantes », c’est-à-dire que lorsque vous demandez au modèle d’être compact et résumer la réponse, ils ont tendance à donner une réponse qui est détériorée dans les données réelles qui Il a étudié, en se concentrant sur les modèles d’IA les plus populaires, notamment Chatgpt, Claude, Gemini, Llama, Grook et Deepsek, montrant que « les bonnes réponses n’ont pas besoin d’être vraies ». document–
Le modèle est envoyé à l’outil d’évaluation dangereux et à l’évaluation des risques. La recherche montre que le grand LLM crée des informations incorrectes en toute confiance –Notre évaluation sur la forme principale du laboratoire des huit IA montre qu’elles créent une réponse aux aspects du pouvoir qui a une production complète, en particulier lorsqu’ils traitent des mauvaises informations.« , Référence Giskard
Les critères standard sont créés pour évaluer la sécurité des LLM dans les quatre domaines importants: les hallucinations, les préjugés et la justice, le danger et la faiblesse des violations intentionnelles à travers diverses techniques telles que le gel qui La première étude qui se concentre sur l’impact des hallucinations montrant qu’il est plus d’un tiers des événements analysés dans les chatbots.
Giskard a déclaré que ce qui est inquiétant, c’est que la réponse semble fiable et capable de tromper les utilisateurs qui manquent de connaissances pour spécifier l’erreur réelle –L’organisation augmente l’utilisation de la LLM dans des processus de travail importants et doit comprendre que ces limitations deviennent un risque important qui devrait être pris en compte.–
Comme on peut le voir dans le cadre qui analyse la résistance du donjon Le modèle accorde de l’importance à l’abréviation de la précision dans la réponse lors de la fourniture de conseils pour résumer la réponse courte. Gemini 1.5 Pro a réduit les hallucinations de 84% à 64%, Claude 3,7 Sonnet de 94% à 88%, GPT-4O Mini de 52% à 45%.
Les hallucinations du modèle de crédit AI: Giskard
« Data -Title = » Ai – Chatbots Résistance artificielle, intelligence artificielle ajoute souvent des erreurs et des « hallucinations » lors du résumé – Sapo tek « >>
–Lorsqu’il est obligé de resserrer le modèle, le modèle doit faire face aux alternatives impossibles pendant une courte réponse, mais incorrecte ou montre qu’ils semblent être inutiles pour rejeter complètement les questions.« , Benckmark indique que le modèle de données montre qu’ils se concentrent sur des conclusions incorrectes. Le problème est que cela a le sens d’insérer des modèles, car ils se concentrent sur la réponse courte pour réduire l’utilisation du temps caché et réduire les coûts au minimum.
Note de rédaction: mise à jour des nouvelles avec plus d’informations, dernière mise à jour 11:14