**Aprenentatge per reforç: com la intel·ligència artificial aprèn a prendre decisions intel·ligents mitjançant recompenses**


L’**aprenentatge per reforç** és una branca de la intel·ligència artificial on un agent aprèn a prendre decisions mitjançant la interacció amb un entorn. Aquest agent rep una **recompensa** (positiva o negativa) després de cada acció, la qual cosa li permet identificar quines accions el porten a obtenir les millors recompenses al llarg del temps.

Els elements clau d’aquest procés són:
- **Agent:** qui pren decisions i aprèn de l’experiència.
- **Entorn:** el món amb el qual interactua l’agent.
- **Estats:** situacions possibles en què es pot trobar l’agent.
- **Accions:** moviments o decisions que pot fer l’agent.
- **Recompensa:** valor numèric que indica si una acció ha estat bona o dolenta respecte a l’objectiu.

El funcionament típic consisteix en què l’agent comença provant accions de manera aleatòria. Mitjançant l’observació de les recompenses que rep, ajusta el seu comportament per anar escollint aquelles accions que li aporten més beneficis de manera acumulada.

A diferència d’altres tècniques, com l’aprenentatge supervisat (on el sistema aprèn a partir d’exemples ja resolts), l’aprenentatge per reforç es basa en l’experimentació i la interacció directa amb l’entorn, fet que el fa especialment útil per a tasques on no existeixen exemples previs o les situacions són canviants.

També existeix el concepte de **curriculum learning**, on la dificultat de les tasques augmenta a mesura que l’agent millora, facilitant així un aprenentatge més eficient.

En resum, aquesta tècnica permet que màquines o programes aprenguin a resoldre problemes complexos per ells mateixos, a través de l’assaig i error, buscant sempre maximitzar la seva recompensa futura.

Font original: Veure article original