Al -Sharq Al -Awsat journal – Utilisation de l’intelligence Yapay

Les outils d’intelligence artificielle ne peuvent pas accomplir des tâches financières de base
De nombreux pionniers de la technologie, en attendant que l’intelligence artificielle remplace les gens et s’attend même à accomplir des tâches complexes rapidement et correctement, Nitasha Tiko et Andrea Jimheizin’in Washington Post, comme l’intelligence artificielle de l’intelligence artificielle ont rejeté ces attentes.
22 modèle d’intelligence artificielle – moins de 50% de précision
Pour les objectifs généraux de « Oben Ai », « anthropic », « xai », « Google » et d’autres sociétés de premier plan dans le domaine de l’intelligence artificielle, 22 tests d’intelligence artificielle ont montré que tous ont atteint la précision des tâches simples nécessaires et inférieures à 50%.
Ryan Krishnan, PDG de Valss AI, qui a réalisé l’étude, a déclaré: « Les bêtises que nous voyons sont contraires à l’esprit (accompagnant la promotion de l’intelligence artificielle). » Il a dit.
Les derniers modèles d’intelligence artificielle obtiennent de bons résultats dans les normes générales qui mesurent les compétences en mathématiques ou en programmation; Étant donné que les questions de ces tests sont largement distribuées en ligne, elles sont devenues une partie des données dans lesquelles les systèmes d’intelligence artificielle sont formés. «
« Les gens font de nombreuses affirmations courageuses sur l’intelligence artificielle, mais ils ne sont pas réels parce qu’ils ont leurs propres personnages … (et en fait) nous n’avons rien de similaire à l’examen d’autres pairs ou des parties étrangères. »
500 questions pour évaluer les formulaires
Afin d’évaluer les modèles, « Falls for Artificial Intelligence » a développé une collection de données spéciale avec plus de 500 questions écrites en coopération avec l’une des principales banques; Pour évaluer les compétences telles que les études de marché et les attentes.
La plupart des modèles d’intelligence artificielle ont rencontré des difficultés dans des tâches courantes telles que la recherche d’informations sur « Edgra », une base de données publique existante pour le public affilié aux titres américains.
«OPA) Modèle: La précision moyenne de 48,3%, mais à un coût de 3,69 $ pour une question moyenne, a fait la dernière version d’O3, un modèle « inférence » conçu pour lui parler comme un moyen de produire des réponses plus précises à des questions complexes.
* Formulaire d’inférence « anthropique »Claude 3.7 Sonnet a atteint une précision de 44,1% pour la question au prix de 1,05 $ plus bas.
* Meta-modèle pour l’intelligence artificielle Le LAMA le plus clair était particulièrement faible, car les trois versions ont été enregistrées inférieures à 10% en moyenne.
Les entreprises qui testeront et classeront l’intelligence artificielle
Valu, l’entreprise initiale de San Francisco se tenant derrière l’étude, fait partie d’un groupe croissant qui promet de tester, de classer ou d’examiner les modèles d’intelligence artificielle à la lumière des difficultés croissantes pour analyser les modèles d’intelligence artificielle, le bruit et la peur dans ce domaine. « Analyse artificielle » et « Chatbot Arena » sont parmi les autres nouvelles entreprises dans ce domaine; Il s’agit d’un célèbre projet de recherche universitaire qui est récemment devenu une entreprise connue sous le nom de « LMarna ».
Krishnan dit qu’il est essentiel d’évaluer les effets du test exact et indépendant sur la façon dont les agents de l’intelligence artificielle effectuent certaines tâches. « Il y avait une vision selon laquelle l’intelligence obstétricale pourrait avoir un impact significatif sur l’économie. » Cependant, nous ne savons même pas dans aucun secteur de l’économie, les modèles peuvent bien faire et à quoi ressemblera ce changement. «
Krishnan a approuvé pendant longtemps «l’évaluation des vibrations» du secteur; Alors, jouez avec un modèle individuel et publiez des exemples immédiatement sur la plate-forme X. Cependant, les entreprises qui envisagent d’acheter ces outils pour augmenter ou changer les travailleurs ont besoin d’une approche de contrôle plus difficile.
Plus de précision des véhicules intelligents dans les emplois juridiques
La société a récemment publié une série d’études similaires qui ont récemment évalué les véhicules d’intelligence artificielle dans des tâches juridiques, examiné les modèles d’intelligence artificielle à des fins générales et les agents de l’intelligence artificielle conçus pour les avocats et les ont testés dans une série d’informations réalistes développées en coopération avec les sociétés juridiques. Dans le domaine des finances, les notes dans le domaine du droit étaient généralement plus élevées et pour certains des mêmes modèles, les taux de précision moyens variaient de 70 et 80%.
La différence entre les performances financières et juridiques
Selon Crisnan, la performance supérieure des affaires juridiques est probablement le résultat de la fourniture des documents nécessaires pour la tâche juridique de la société, l’étude financière a demandé « exécuter ses propres recherches sur Internet ouvertes; pour atteindre les résultats dans le contexte nécessaire » « .
Mita a refusé de commenter le rapport de l’intégration de l’IA et n’a pas répondu aux commentaires OPNI et anthropiques.
Dans l’évaluation financière, Fallis AI a produit que la performance des modèles était bien pire avec la difficulté d’augmenter les tâches. Dix modèles n’ont reçu aucun zéro des questions qui souhaitent déterminer un modèle de société unique à travers des titres répétés, comme la fourniture de revenus publicitaires YouTube en pourcentage du revenu de « l’alphabet » de 2021 à 2024.
Diverses évaluations et manipulation des entreprises
En moyenne, selon l’analyse de la société « Valus AI » pour l’entrepreneur humain qui est invité à effectuer les mêmes tâches, en moyenne, c’était les meilleures tâches pour récupérer des informations de qualité quantitative et simples, ce qui est des tâches faciles, mais cela peut prendre beaucoup de temps pour les gens.
Dans un cas distinct, l’OBEN AI a rapporté divers résultats du modèle O3 sur les questions mathématiques par rapport aux résultats d’un auditeur externe. Dans une évaluation de la plate-forme « Chatbot Arena », que les utilisateurs votent pour l’intelligence artificielle, les derniers modèles de « MITA » auraient été manipulés en publiant une version « Discours développée » de « LAMA 4 ». Un porte-parole de MITA qui commente ce sujet a déclaré: Nous essayons tous les types de douanes.
L’effet de l’intelligence artificielle sur les choses
L’étude du secteur financier mené par « Vals AI » a fourni une perspective différente sur les dernières explications sur l’impact de l’intelligence artificielle sur les catégories commerciales.
Par exemple, le partenaire de Microsoft, Bill Gates, a déclaré qu’en février, l’intelligence artificielle remplacera les médecins et les enseignants pour la prochaine décennie. Dans une récente interview de podcast, Victor Lazara, le partenaire général de « Pinthmark », a déclaré que les déclarations des sociétés technologiques sur « l’augmentation de l’intelligence humaine des gens sont trompeuses et que les avocats et les responsables de l’emploi devraient se sentir particulièrement inquiets.
Le message de l’équipe ValuSAI montre qu’il peut être approprié de faire une évaluation plus modeste de l’effet de l’intelligence artificielle sur de nombreuses fonctions administratives. Bien que Krishnan, malgré le développement constant des systèmes, l’idée que l’intelligence artificielle peut faire une personne du début à la fin est toujours « un peu fictive ».