Limitacions del Chain-of-Thought en IA: pèrdua de rendiment i errors en la generalització fora de distribució


Un nou estudi assenyala que els models d’IA que utilitzen el raonament pas a pas —el conegut com a **chain-of-thought (CoT)**— **perden rendiment de manera notable quan han de generalitzar** més enllà dels patrons vistos durant l’entrenament. En tasques noves o distribuïdes de manera diferent, el CoT pot generar explicacions llargues però menys fiables, i fins i tot amplificar errors de raonament.

Punts clau:
- El **CoT** sol millorar resultats en problemes coneguts perquè força el model a descompondre el problema i “mostrar la feina”, però **aquesta mateixa verborrea no garanteix millor lògica** quan el context s’allunya del que el model ha après.
- En escenaris de **generalització fora de distribució** (tasques, dades o formats no vists), els models poden:
- Fer **sobreajust de patrons** apresos en lloc d’inferir principis generals.
- **Cometre errors primerencs** en la cadena i propagar-los fins al final.
- **Confondre correlacions** freqüents a l’entrenament amb regles causals vàlides.
- Tècniques com la **self-consistency** (generar múltiples cadenes i votar la millor) ajuden, però **no eliminen la degradació** quan el desafiament principal és la generalització.
- Implicacions pràctiques:
- El CoT és útil per a **problemes estructurats i familiars** (aritmètica multistep, lògica simbòlica), però **no s’ha d’interpretar com a prova de veracitat** en àmbits nous o canviants.
- Cal combinar-lo amb **validació externa**, **verificadors** o **agents** que comprovin cada pas, i amb **dades de prova fora de distribució**.
- És recomanable **limitar la longitud** del raonament, **forçar comprovacions modulars** i aplicar **recerca de plans alternatius** quan hi hagi incertesa.

En síntesi, el chain-of-thought continua sent útil per fer més transparent el procés del model i millorar tasques conegudes, però **no garanteix bona generalització**. Per a entorns nous, calen mètodes de verificació i dissenys que prioritzin la robustesa per sobre de l’exhaustivitat narrativa.

Font original: Veure article original