OpenAI llança GPT-OSS: models de llenguatge oberts, eficients i personalitzables amb arquitectura Mixture-of-Experts i context llarg de 128.000 tokens
OpenAI ha llançat els seus primers models de llenguatge d’ús obert des de 2019, anomenats gpt-oss, disponibles en dues mides: un model de 120.000 milions de paràmetres i un de 20.000 milions. Aquests models utilitzen una arquitectura anomenada Mixture-of-Experts (MoE), que permet activar només una part dels paràmetres per consulta, fent-los més eficients en memòria i velocitat. Funcionen amb quantificació FP4 per consumir menys memòria, poden gestionar contextos llargs de fins a 128.000 tokens, i estan enfocats principalment a text en anglès, ciència, tecnologia, enginyeria, matemàtiques i codi. Són completament personalitzables, es poden adaptar a diferents usos i es distribueixen sota una llicència Apache 2.0, la qual cosa facilita el seu ús comercial i experimental sense restriccions de patents o codi obert. Inclouen capacitats avançades de raonament, ús d’eines, interpretació de codi i, properament, cerca web integrada.
Font original: Veure article original