OpenAI presenta gpt-oss: models de llenguatge de codi obert per a execució local amb alta eficiència i contextos llargs
OpenAI ha llançat nous models de llenguatge de codi obert, anomenats gpt-oss, que es poden executar directament als dispositius dels usuaris en lloc de dependre del núvol. Aquests models utilitzen una arquitectura Transformer avançada amb la tècnica mixture-of-experts (MoE), que permet reduir el nombre de paràmetres actius per processar cada entrada i, per tant, optimitzar l’eficiència i l’ús de memòria. Els models gpt-oss-120b i gpt-oss-20b tenen 117.000 i 21.000 milions de paràmetres totals, però només n’activen una fracció per token, fent-los més manejables per a entorns locals.
A més, incorporen millores com la grouped multi-query attention per accelerar la inferència, ús de Rotary Positional Embedding (RoPE) per a la codificació posicional i permeten treballar amb contextos llargs de fins a 128.000 tokens. Han estat entrenats principalment amb dades en anglès, amb èmfasi en àrees com la ciència, la tecnologia, l’enginyeria, les matemàtiques (STEM), la programació i el coneixement general.
Els models es poden descarregar lliurement i personalitzar per a diferents usos, i poden funcionar tant en centres de dades com en ordinadors d’escriptori avançats o portàtils potents. Aquesta obertura facilita la privacitat, ja que les dades es processen localment, i elimina la dependència del núvol, permetent més control i flexibilitat per a desenvolupadors i organitzacions.
Font original: Veure article original