OpenAI a dévoilé deux nouvelles versions de ses modèles avancés sous le nom « O3 » et « O4-MinI », qui représentent un changement qualitatif dans les capacités de pensée logique et l’analyse des données via la plate-forme ChatGpt.
Dans une déclaration officielle, la société a décrit ces modèles comme «les plus intelligents jusqu’à présent», car il offre des performances avancées en termes d’utilisations académiques et d’applications réelles.
La déclaration a ajouté que le modèle O3 le plus avancé de la série « O » d’OpenAI, car il a été formé à une réflexion profonde avant d’émettre des réponses, tout en améliorant ses capacités pour utiliser différents outils dans le chatppt.
Cela inclut la recherche en ligne, l’analyse de fichiers et les données via Python, ainsi que l’interprétation du contenu visuel et la génération d’images en cas de besoin.
Le modèle a une meilleure capacité de prendre des décisions concernant l’outil approprié à utiliser en fonction du type de question et de sa complexité, ce qui lui permet de fournir des réponses précises et en profondeur dans un délai qui ne dépasse pas une minute. Cette évolution se présente dans le cadre de l’effort de l’entreprise pour permettre à ChatGpt de mener plusieurs tâches indépendamment.
Le modèle O3 se caractérise par ses fortes performances dans des domaines tels que la programmation, les mathématiques, la science et l’identification visuelle, car il a obtenu des résultats enregistrés sur des tests tels que lesforces, SWE-Bench et MMMU.
Le modèle a également réduit le pourcentage d’erreurs majeures de 20% par rapport au modèle O1 précédent, en particulier dans les tâches complexes associées aux champs d’activité, de conseil et d’ingénierie.
Quant au modèle O4-MinI, il a été conçu pour être un modèle intégré caractérisé par un coût élevé et une vitesse de mise en œuvre, tout en offrant une performance distinguée en mathématiques, en programmation et en tâches visuelles.
Le meilleur modèle dans les tests AIME pour l’année 2024 et 2025 est également surclassé par rapport à la précédente version O3-MinI, même dans des tâches qui ne sont pas associées à des disciplines scientifiques.
Promouvoir l’apprentissage et développer la pensée « visuelle »
OpenAI a continué d’élargir la portée de l’utilisation de l’apprentissage augmenté dans le développement du modèle O3, car il a noté que la relation entre l’augmentation des capacités mathématiques et l’amélioration des performances qui ont été observées auparavant dans les modèles GPT existent toujours dans ce contexte.
En doublant la capacité arithmétique pendant la formation et la réflexion au moment de la mise en œuvre, le modèle a réussi à réaliser des gains de performance clairs, ce qui confirme que le fait de permettre au modèle de réfléchir pendant de plus longues périodes se reflète directement sur la qualité des résultats.
Les deux modèles ont également été formés pour utiliser des outils grâce à l’apprentissage augmenté, non seulement en termes de « comment » l’outil est utilisé, mais « quand et pourquoi » il est utilisé.
Cette capacité stratégique à choisir des outils basée sur les résultats souhaités donne aux modèles une plus grande flexibilité dans le traitement des scénarios complexes, en particulier dans les domaines de la pensée visuelle et du flux de travail en plusieurs étapes.
Pour la première fois, ces modèles peuvent directement intégrer les images dans leur série de réflexion, ils ne « regardent pas seulement » les images, mais « en pensant à eux », qui ouvre la porte à une nouvelle catégorie de solutions qui combinent le visuel et le texte.
Ses performances distinguées dans les tests multimédias montrent sa capacité à traiter les types de questions qui étaient auparavant difficiles à résoudre.
Les utilisateurs peuvent télécharger des photos du tableau noir, des illustrations de livres, ou même des plans dessinés manuellement, pour les expliquer, même s’ils ne sont pas clairs ou de faible qualité.
Ces modèles peuvent également interagir directement avec les images tout en pensant, en tournant, en zoomant ou en transformation visuelle dans le cadre du processus d’analyse.
Les modèles O3 et O4-Mini offrent un accès complet aux outils de ChatGpt, ainsi que la prise en charge des outils alloués sur l’interface API. Il a été formé pour choisir la meilleure façon de résoudre les problèmes, y compris le moment de l’utilisation des outils et la formulation de sorties appropriées rapidement et efficacement.
Par exemple, si l’utilisateur pose une question telle que: «Comment la consommation d’énergie en Californie sera-t-elle comparée cet été l’été dernier?»
Raisonnement visuel
Les deux nouveaux modèles sont capables de «penser avec des images», et pas seulement pour l’identifier visuellement.
Cette fonctionnalité est une extension de l’approche adoptée dans le modèle O1 précédent, qui se concentre sur une longue réflexion avant de fournir des réponses. Maintenant, ces capacités ont été renforcées en intégrant des images dans la série de réflexion interne du modèle.
Cette technique permet aux modèles le traitement d’image que l’utilisateur détient à l’aide d’outils compacts, ce qui lui permet de couper, d’agrandir ou de faire pivoter l’image, ainsi que de réaliser d’autres processus de traitement visuel, sans avoir besoin de modèles spécialisés externes.
La capacité visuelle de Chatgpt est un composant pivot de la résolution des problèmes les plus complexes, car il lui permet d’analyser les images avec précision et fiabilité ci-dessus.
Le modèle peut également s’intégrer en douceur entre la pensée analytique avancée et l’utilisation d’outils tels que la recherche en ligne et l’amendement visuel – y compris le zoom, la coupe, le recyclage et l’amélioration de la qualité de l’image – pour tirer des conclusions même à partir d’images non parfaites.
Par exemple, l’utilisateur peut télécharger une image contenant un problème économique pour obtenir une explication détaillée étape par étape, ou envoyer une capture d’écran d’une erreur logicielle pour le formulaire pour déterminer rapidement la cause profonde du problème.
Cette approche représente un nouvel axe dans l’élargissement de la portée de la thérapie informatique au moment de la mise en œuvre, par l’intégration harmonieuse entre visuel et texte, ce qui se traduit par une performance supérieure dans les tests multimédias, et ouvre la voie à une pensée médiatique plus complète.
Les modèles modernes offrent une expérience interactive plus facile à travers des images, car l’utilisateur peut prendre une image et poser une question sans se soucier de la position des éléments de l’image, qu’il s’agisse de se faire à l’envers ou contient plusieurs problèmes en même temps. Même si certains éléments semblent peu clairs à première vue, le modèle est capable d’agrandir l’image et de déterminer les détails avec plus de précision.
Défis actuels
Malgré les progrès remarquables, il y a encore des défis auxquels sont confrontés la «réflexion avec des images», y compris que les longues chaînes de réflexion sont excessives, en raison de l’appel d’outils ou de processus visuels inutiles, et il existe également des erreurs de perception visuelle qui peuvent conduire à de mauvaises explications malgré le cours approprié.
La société a également reconnu l’existence d’une fluctuation dans la fiabilité des résultats lors de l’essai de la même tâche plus d’une fois, en raison des différents mécanismes d’analyse visuelle, cependant, les modèles O3 et O4-MinI d’OpenAI sont un changement de premier plan dans le développement des capacités visuelles de l’intelligence artificielle, car il offre une grande précision dans les images de compréhension, et il a pu résoudre les problèmes qui ont été considérés en dehors de la lunette de capacités techniques dans le passé.
Les nouveaux modèles sont disponibles pour les abonnés dans l’utilisation des équipes des équipes ChatGpt Pro, ChatGpt Plus et ChatGPT, ainsi que le modèle Light O4 Mini pour les utilisateurs de la version gratuite de la plate-forme intelligente en activant la fonction de réflexion dans la boîte d’écriture avant d’envoyer leurs demandes.