Agents IA 24/06/2025 60 visualitzacions

Gemini Robotics de Google DeepMind: avanç multimodal en IA embarcada per a robots autònoms i versàtils

Carolina Parada, directora de robòtica a Google DeepMind, explica que la nova tecnologia Gemini ha permès grans avenços en robòtica, especialment gràcies a la seva capacitat de funcionar directament als dispositius (on-device AI). Els nous models de Gemini Robotics són multimodals, cosa que vol dir que poden entendre i combinar informació de text, imatges, vídeos i àudio, i ara també són capaços de planificar i executar accions físiques de manera autònoma.

Aquests robots, impulsats per models com Gemini 2.5 Pro i Gemini Robotics-ER, destaquen per la seva destresa, flexibilitat i capacitat d’interactuar amb l’entorn sense necessitat de reentrenament específic per a cada tasca o objecte nou. Això els permet abordar tasques complexes com preparar amanides, jugar o manipular objectes delicats des del primer intent. La clau d’aquests avenços és la combinació de dues funcions essencials: la comprensió i raonament sobre l’entorn, i l’execució física d’accions segures i precises.

Gemini Robotics-ER, basat en Gemini 2.0 Flash, se centra en el raonament “embodied” (incorporat): reconeix elements de l’entorn, en determina la mida i posició, prediu trajectes òptims i genera el codi necessari perquè el robot actuï de manera autònoma. Aquest sistema ja s’està provant amb col·laboradors de confiança i promet que, en el futur, els robots seran tan accessibles com els telèfons o ordinadors, convertint-se en agents d’IA útils per a les tasques quotidianes.

Font original: Veure article original