Rànquing innovador d’Inclusion AI i Ant Group per avaluar grans models de llenguatge amb dades reals en aplicacions comercials


Un equip d’Inclusion AI i Ant Group ha desenvolupat un nou rànquing per avaluar grans models de llenguatge (LLM), utilitzant dades reals procedents d’aplicacions en funcionament. Aquest sistema de classificació pretén ser més representatiu que altres rànquings actuals, que sovint es basen en conjunts de dades artificials o proves sintètiques.

Aquesta nova metodologia recull informació directa de l’ús quotidià de models d’IA en aplicacions comercials, permetent valorar el seu rendiment en situacions reals. L’objectiu és oferir una comparativa més fiable de la utilitat, la robustesa i la seguretat dels models d’IA quan es despleguen en entorns de producció.

El projecte, liderat per Inclusion AI en col·laboració amb Ant Group, fomenta la transparència i la col·laboració oberta, i vol promoure el desenvolupament de models d’IA més robustos i inclusius per a la societat. Aquesta iniciativa s’inscriu dins una tendència creixent a utilitzar indicadors i criteris d’avaluació més pròxims a les necessitats reals dels usuaris i empreses, superant les limitacions dels clàssics benchmarks sintètics.

Font original: Veure article original