OpenAI llança gpt-realtime: el model de veu a veu més avançat per converses naturals, ràpides i multilingües amb IA


OpenAI ha llançat **gpt-realtime**, el seu model més avançat de veu a veu, dissenyat per oferir converses amb IA molt més naturals i realistes. Aquest model millora clarament la qualitat de l’àudio, la intel·ligència i la capacitat de seguir instruccions complexes, la qual cosa permet que els agents de veu puguin parlar amb entonació, emoció i ritme humans, així com adaptar-se a diferents tons i idiomes dins d'una mateixa conversa.

Entre les novetats tècniques destaca una **reducció significativa de la latència**, ja que el model processa l’àudio directament sense passos intermedis, cosa que fa que les respostes siguin més ràpides i fluides. També incorpora noves funcionalitats com la recepció d’imatges, trucades telefòniques via SIP i compatibilitat amb servidors remots MCP. S’han afegit dues veus noves, Cedar i Marin, exclusives de la nova API i millorades per a una experiència més humana.

En proves internes, **gpt-realtime** ha aconseguit un **82,8% d’eficiència** en tasques de raonament i reconeixement d’informació complexa, superant amb escreix el model anterior (65,6%). El model és especialment útil per a atenció al client, assistents personals i aplicacions educatives, ja que pot captar matisos no verbals (com riures), canviar d’idioma a mitja frase i detectar seqüències com números o codis en diversos idiomes.

A més, amb aquesta actualització, la solució resulta més accessible pel seu **cost reduït** (un 20% menys que l’anterior) i està optimitzada per desplegaments empresarials amb suport per a la residència de dades a la UE.

En resum, **gpt-realtime** marca un pas endavant perquè les interaccions amb veus generades per IA siguin pràcticament indistingibles de les converses humanes, obrint la porta a una adopció massiva en entorns professionals i serveis al públic.

Font original: Veure article original