Limits i mites de la IA: per què més temps de càlcul no millora el raonament dels models d’Anthropic
Una investigació d’Anthropic revela que els models d’IA, quan se’ls dóna més temps per raonar —és a dir, més capacitat de càlcul durant la fase de resposta— no milloren el rendiment, sinó que sovint empitjoren. Aquesta troballa posa en dubte una de les suposicions habituals del sector, segons la qual permetre que la IA “pensi” més temps durant la inferència (test-time compute scaling) hauria d’augmentar la qualitat de les seves respostes, especialment en entorns empresarials.
Els resultats suggereixen que, tot i que es pot dotar als models com Claude d’Anthropic d’un “mode de pensament estès” (on l’usuari controla quant temps i esforç dedica la IA a una tasca), en molts casos això no es tradueix en respostes més bones o fiables. De fet, la capacitat de la IA per raonar de manera profunda sembla tenir límits, i el simple fet d’augmentar el temps de càlcul no sempre porta a millores, trencant així una expectativa clau de la indústria sobre com escalar els sistemes d’IA.
Aquesta recerca té implicacions importants per a empreses que volen desplegar IA a gran escala, ja que invertir més recursos computacionals a la fase de resposta podria ser ineficient o fins i tot contraproduent. Entendre millor com raonen internament aquests models i quins són els seus límits esdevé fonamental per garantir sistemes fiables i alineats amb els valors humans.
Font original: Veure article original