MCPEval: Avaluació Automàtica i Profunda d’Agents d’Intel·ligència Artificial amb Protocol MCP per a Tecnologia Avançada


Un equip d’investigadors de Salesforce ha presentat **MCPEval**, un nou mètode per avaluar el rendiment d’agents d’intel·ligència artificial (IA) i el seu ús d’eines dins de servidors MCP (Minecraft Protocol). Aquesta metodologia permet mesurar, de manera sistemàtica i precisa, com de bé els agents d’IA compleixen tasques complexes i interactuen amb l’entorn virtual utilitzant les eines disponibles. Els resultats obtinguts amb MCPEval faciliten la comparació entre diferents agents i ajuden a identificar punts forts i febles en el seu comportament, contribuint així a avançar en el desenvolupament d’agents més capaços i adaptatius.

Font original: Veure article original