Qwen-Image-Edit d’Alibaba: Eina d’Intel·ligència Artificial Avançada per a Edició Semàntica i Precisa d’Imatges amb Text Multilingüe


Qwen-Image-Edit és una eina avançada d’edició d’imatges basada en un model d’intel·ligència artificial de 20.000 milions de paràmetres, desenvolupada per l’equip Qwen d’Alibaba. Està pensada tant per a professionals que necessiten control precís com per a usuaris ocasionals que busquin una experiència accessible.

Ofereix dues funcionalitats principals:
- **Edició semàntica**: Permet modificar el significat o la composició d’una imatge (com girar objectes, canviar l’estil artístic o transformar personatges) tot mantenint la coherència visual i conceptual.
- **Edició d’aparença**: Permet retocar detalls a nivell de píxel (afegint, esborrant o modificant elements) sense afectar la resta de la imatge.

Una característica destacada és la **edició precisa de text** en imatges, tant en xinès com en anglès, mantenint la tipografia, la mida i l’estil originals, cosa que resulta útil per a cartells, banners o maquetes de disseny.

El model utilitza una arquitectura Multimodal Diffusion Transformer, capaç de processar alhora informació visual i textual, per aconseguir resultats coherents i d’alta fidelitat. La seva estratègia d’entrenament progressiu li permet abordar des de tasques bàsiques fins a edicions complexes, incloent la generació de textos i la transferència d’estils.

Qwen-Image-Edit ha estat avaluat en diversos benchmarks públics, on ha assolit resultats de referència en qualitat d’edició. El seu codi obert i la llicència Apache 2.0 en faciliten la integració tant en projectes comercials com en aplicacions lliures, contribuint a democratitzar l’edició d’imatges d’alta gamma.

Font original: Veure article original