Mixture-of-Recursions (MoR): Arquitectura d’Intel·ligència Artificial Eficaç per a Models de Llenguatge Grans amb Optimització de Memòria i Velocitat


**Mixture-of-Recursions (MoR)** és una nova arquitectura d’intel·ligència artificial que optimitza el funcionament dels models de llenguatge grans (com els LLM) fent-los més eficients tant en cost computacional com en ús de memòria, sense perdre rendiment.

MoR utilitza una estructura basada en *Recursive Transformers*, on un conjunt de capes compartides es reutilitza mitjançant recursió. El punt clau és que, gràcies a uns routers lleugers, el model pot decidir automàticament quantes vegades aplicar aquestes capes per a cada paraula (token) del text. Això permet que el model dediqui més “profunditat de pensament” només als tokens que realment ho necessiten, adaptant el càlcul de manera dinàmica i eficient.

Aquesta flexibilitat s’acompanya d’un sistema de *caching* selectiu: només es guarden i reutilitzen les dades necessàries per cada recursió, cosa que redueix molt el tràfic de memòria i accelera la generació del text. També introdueix variants de compartició de memòria (Key-Value sharing) per reduir encara més la latència i el consum de memòria, especialment durant la generació inicial (prefill).

Els experiments mostren que MoR, amb menys paràmetres i la mateixa potència de càlcul, manté o fins i tot millora la qualitat dels resultats respecte als Transformers tradicionals, aconseguint una millor precisió i una velocitat d’inferència superior. Això obre la porta a models de qualitat similar als més grans, però molt més barats i fàcils de desplegar.

Font original: Veure article original