Cadre d’évaluation: parties importantes qui seront utilisées avec succès – Opinions

Par Gregorio Ferreira
Aujourd’hui, l’entreprise doit faire face à une question décisive: comment mesurer l’efficacité, la pertinence et l’efficacité des représentants de l’IA et montrer qu’ils sont conformes au KPI stratégique?
L’intelligence artificielle (Genai) et les représentants de l’IA – entraînent leurs changements dans de nombreux secteurs. Son potentiel ne peut pas être contesté. Mais la vitesse que l’écosystème évolutif rend difficile le déplacement en toute sécurité dans cet article, je partage mon expérience sur la façon dont l’organisation peut faire face à ce défi et pourquoi il est nécessaire de réfléchir à nouveau. Indicateurs traditionnels pour séparer toutes les valeurs d’IA.
Leçon sur terre (2016-2017)
En étant un leader du centre de culture de l’innovation qui se concentre sur les services intellectuels entre 2016-2017, je me réalise directement qu’une évaluation stricte est très importante pour apporter l’IA du laboratoire à la production. À cette époque, notre petite équipe a développé un chat conçu pour faciliter le travail, comme la perception des actifs via l’OCR et la vision des ordinateurs ou au sein des RH pour la technologie transnationale. Ces solutions par défaut – assez basiques dans les normes actuelles – sont la preuve qu’il est nécessaire d’avoir des besoins importants pour les mécanismes d’évaluation systématiques.
Ces robots sont basés sur des règles ou une reprise. Réponse: Ils peuvent choisir la meilleure réponse disponible. Mais ne pas le créer, la génération de SEQ2SEQ demande toujours beaucoup de GPU et n’est pas utilisée dans les chatbots.
Soyons un exemple de notre chat « API », qui permet aux ingénieurs sur le terrain de reconnaître l’industrie par le biais de l’OCR pour augmenter considérablement leurs flux de travail. Le chatbot interne offre la première ligne de RH, ce qui se traduit par une grande économie en aidant la négociation au 1er niveau de soutien. Entre 2015 et 2016, le premier service de l’ordre (LSTM) sur le cloud montre qu’il est possible de créer, et pas seulement de récupérer la réponse complète. Cette avancée lance les bases de la révolution du transformateur en 2017, et au fil du temps pour l’agent LLM actuel, grâce à des protocoles modernes tels que MCP (Pro Context of the Protocol) et A2A (agent à l’agent). Les agents qui utilisent LLM peuvent découvrir et utiliser un AP complexe. Cette évolution montre jusqu’où nous sommes venus: de la logique facile pour une interaction complexe et une adaptation entre les agents.
Cependant, malgré nos efforts, il est clair que les décisions d’arbres spécifiées et les questions prédéfinies et le flux de la réponse ne suffisent pas. Nous avons appris rapidement qu’une évaluation détaillée est nécessaire, non seulement, mais évaluerons que nos robots de chat comprennent le problème des utilisateurs mais toujours contre les intentions de l’utilisateur « bot »
Il y a de nombreuses années, le mot «observation» est devenu populaire. Nous avons enregistré le dépistage approfondi, l’état qui a été arrêté et un moyen pour chaque réponse. Nos méthodes méticuleuses comprennent des enregistrements spacieux (enregistrement), la vérification de l’état et la collecte d’indicateurs détaillés concernant l’interaction des utilisateurs, la construction de fondations pour les directives d’évaluation les plus modernes que nous voyons aujourd’hui. Cette discipline soutient toujours le cadre d’évaluation que nous présentons aujourd’hui.
Entrer dans le présent
L’utilisation d’expériences de pratique depuis de nombreuses années, nous avons rendu nos méthodes parfaites dans une structure et un cadre d’évaluation solide. Mais pourquoi y a-t-il un cadre important aujourd’hui?
Investissement stratégique
Les cadres, l’évaluation, la connexion technologique pour effacer les résultats commerciaux mesurés et mesuré des vues plus profondes sur la précision, la capacité, la réponse et les agents pertinents pour interagir avec les utilisateurs.
- Le cadre actuel a été testé dans le contexte réel et dépend des trois couches principales: Retour des données et inspection:
- Les tuyaux de données automatiques s’assurent que l’ensemble de données qui a une structure et peut être révélé conformément à des fins commerciales. Orchestration de l’évaluation avec MLFlow:
- MLFlow Full -Up garantit la capacité de répéter et la transparence dans chaque expérience. RAPPORT ET INS INFORMATIONS DE TERME UTILISÉS:
Tableau de bord facile à utiliser, combiné avec les outils BI populaires, offrant une transparence pour les décisions de données.
Indicateurs importants
- Nous nous concentrons sur les principaux indicateurs qui sont conformes à l’entreprise: La fondation et l’honnêteté:
- Certifier les faits Pertinence et expiration:
- A entièrement répondu à la question de l’utilisateur. Rafraîchissant et douceur:
- Offrir une interaction claire et participer Efficacité, retard et coût:
Suivez les normes opérationnelles
Accélérer l’acceptation des entreprises
- Le cadre d’évaluation offre immédiatement des avantages: La capacité d’ajuster rapidement la taille:
- Petite utilisation et évaluation réglable Combinaison liquide:
- Facile à combiner avec diverses infrastructures Amélioration continue:
L’évaluation est une période qui entraîne l’évolution constante de la solution d’IA.
Changer le potentiel de l’IA
Aujourd’hui, l’entreprise a besoin de transparence, de clarté stratégique et de résultats quantitatifs de l’investissement en IA. S’il n’y a pas de composant, l’acceptation de l’IA ne peut être qu’une expérience. Mais avec le cadre correct, l’IA peut devenir responsable du temple et enfin changer.
L’avenir appartient à ceux qui ne se limitent pas à la création de l’IA mais qui assument la responsabilité. L’évaluation avec la structure est un moyen d’y parvenir.
Directeur de l’opération Intellias AI
Source link