Robots Humanoides: Com l’Aprenentatge Competitiu i la Intel·ligència Artificial Multimodal Impulsen l’Autonomia i l’Adaptabilitat en Robòtica Avançada


Els robots humanoides estan cada cop més preparats per actuar en entorns quotidians, però perquè siguin realment útils, necessiten “cervells” sofisticats que els permetin aprendre i adaptar-se sense tanta intervenció humana experta. Tradicionalment, programar aquests robots requereix moltes hores d’experts configurant comportaments i ajustant paràmetres. Les tècniques d’aprenentatge automàtic (machine learning, ML) prometen millores, però encara depenen molt de la supervisió i reenginyeria humana per a cada nova habilitat.

Per superar aquest límit, l’equip de Google DeepMind ha investigat com aconseguir que dos robots aprenguin jugant a tennis de taula entre ells. Aquest esport és un repte ideal perquè implica percepció, control precís, presa de decisions i estratègia, habilitats molt valuoses per a la robòtica en entorns reals.

Les tècniques habituals d’ML, com l’aprenentatge per imitació (on el robot copia un expert) o l’aprenentatge reforçat (on es premien accions bones), requereixen moltes dades o una programació complexa de recompenses, la qual cosa limita l’autonomia del robot. Per això, s’ha provat el “self-play” (autojoc competitiu), on dos braços robòtics juguen un contra l’altre: cada cop que un millora, força l’altre a adaptar-se, generant una millora contínua. Aquest entrenament es fa en un entorn totalment automatitzat, cosa que permet llargues sessions sense supervisió directa.

Tot i així, entrenar robots perquè siguin competitius entre ells és difícil: els agents tendeixen a especialitzar-se massa en determinats tipus de jugades i obliden com respondre a altres situacions. Per millorar, també s’ha provat que el robot jugui contra humans, cosa que augmenta la varietat de situacions d’aprenentatge.

Un altre avenç destacat és l’ús de models de llenguatge multimodal (VLM), com Gemini, que poden actuar com a “entrenadors” virtuals: observen el comportament del robot i li donen consells per millorar, sense necessitat de definir recompenses matemàtiques. Aquesta aproximació permet fer l’aprenentatge més explicable i flexible, aprofitant un únic prompt (“SAS Prompt”: resumir, analitzar, sintetitzar) per guiar el robot.

Encara queden reptes importants, com estabilitzar l’aprenentatge competitiu i escalar el coaching amb VLMs, però aquests enfocaments ofereixen una via prometedora per a robots més autònoms, adaptatius i capaços d’aprendre per si mateixos habilitats complexes en entorns canviants.

Font original: Veure article original