R-Zero: sistema d’intel·ligència artificial autoaprenent que millora el raonament sense dades etiquetades humana
R-Zero és un sistema d’intel·ligència artificial capaç de millorar-se a si mateix en raonament sense necessitat de dades etiquetades per humans ni tasques prèvies. El funcionament es basa en dos models d’IA que evolucionen conjuntament: el **Challenger** crea preguntes o problemes cada cop més difícils, just al límit del que pot resoldre el **Solver**, que ha d’intentar solucionar-los.
El Challenger és recompensat quan aconsegueix generar preguntes que desafien el Solver, i el Solver rep recompensa si les resol amb èxit. Les preguntes massa fàcils o impossibles són descartades; només es mantenen aquelles que el Solver pot resoldre aproximadament la meitat de les vegades, assegurant que l’aprenentatge sigui progressiu i adaptat a la seva capacitat actual.
Aquesta dinàmica permet que el sistema creï el seu propi "currículum" d’aprenentatge, generant i seleccionant automàticament les tasques més útils per a millorar el raonament. Els experiments mostren que R-Zero aconsegueix millorar notablement les habilitats de raonament de diversos models de llenguatge, especialment en àrees com matemàtiques i raonament general, i pot complementar el perfeccionament amb dades etiquetades per humans.
Font original: Veure article original