ChatGPT 26/08/2025 66 visualitzacions

Gemini 2.5 Flash Image: Model avançat d’edició i generació d’imatges amb IA per a creadors i empreses

Gemini 2.5 Flash Image, abans conegut com a nanobanana, és un nou model d’edició i generació d’imatges de Google que destaca per la seva rapidesa, eficiència i qualitat avançada. Permet crear, transformar i combinar imatges utilitzant instruccions en llenguatge natural, la qual cosa facilita editar imatges com si fos una conversa i mantenir la coherència d’estil o personatge en diferents escenes.

Entre les funcionalitats més rellevants hi ha:
- **Fusió d’imatges:** possibilitat de barrejar diverses imatges en una de sola de manera integrada.
- **Coherència visual:** manté el mateix personatge o estil entre diferents imatges, ideal per a històries visuals o presentacions.
- **Edició conversacional:** es poden fer modificacions concretes simplement escrivint què vols canviar en llenguatge natural (ex: eliminar un objecte, corregir un detall).
- **Generació guiada:** descrivint l’escena amb detall (com un fotògraf: angles, llum, expressió) es poden obtenir resultats més realistes i acurats.

El model s’ofereix a través de l’API Gemini i plataformes com Google AI Studio i Vertex AI per a desenvolupadors i empreses, amb preus accessibles per imatge generada. A més, inclou tecnologies com SynthID per marcar les imatges generades i garantir-ne l’ús responsable.

Aquesta eina representa una evolució important per a la creació visual assistida per IA, fent accessible l’edició i generació d’imatges avançada tant per a professionals com per a usuaris menys experts.

Font original: Veure article original