MLPerf 2025: Nous benchmarks, rècords en models LLM i lideratge de Nvidia en rendiment i eficiència AI


El camp de l’**aprenentatge automàtic (machine learning)** evoluciona ràpidament i les eines per mesurar-ne el progrés, com la competició **MLPerf**, s’adapten contínuament. Aquest any, MLPerf ha estrenat tres nous tests de referència (benchmarks) que reflecteixen les tendències més recents del sector.

MLPerf ha inclòs el seu **model més gran fins ara**, el Deepseek R1 amb 671.000 milions de paràmetres, superant l’anterior rècord. Aquest model, centrat en el raonament, fa diversos passos lògics abans de respondre una consulta, cosa que fa que la inferència requereixi molta més potència de càlcul. Aquest tipus de models són especialment útils per a preguntes de ciència, matemàtiques o programació avançada.

També s’ha afegit el **benchmark més petit fins ara**, basat en Llama3.1-8B, pensat per a aplicacions que requereixen resposta ràpida i acurada, com la resum de textos o dispositius d’“edge”. En total, hi ha ara quatre benchmarks d’**LLM (models de llenguatge gran)**, fet que mostra la importància creixent d’aquests models.

A més, s’ha incorporat una nova prova de **veu a text** basada en el model Whisper-large-v3, una resposta a la popularitat creixent d’aplicacions activades per veu.

Pel que fa als resultats:
- **Nvidia** lidera amb la seva nova GPU **Blackwell Ultra**, que destaca per tenir més capacitat de memòria, més potència de càlcul i una nova arquitectura que permet separar les fases de processament de la consulta per optimitzar-ne el rendiment. També utilitza un nou format numèric de 4 bits que manté l’exactitud amb menys consum de recursos.
- **AMD** segueix de prop amb la nova **MI355X**, amb suport per precisió de 4 bits i memòria millorada. Per primer cop, s’han presentat resultats híbrids utilitzant dues generacions de GPUs AMD alhora, fet rellevant per gestionar infraestructures mixtes.
- **Intel** ha entrat a la competició de GPUs amb la **Arc Pro**, tot i que encara aposta pels processadors Xeon per a algunes proves. La seva GPU iguala el rendiment de Nvidia en alguns benchmarks petits, però queda enrere en proves més exigents.

MLPerf diferencia entre la modalitat “**closed**” (model de referència sense modificacions) i “**open**” (on es poden ajustar els models). Els resultats mostren que la potència de càlcul, la gestió eficient de la memòria i la flexibilitat per adaptar-se a nous models són clau per liderar en aquest àmbit tecnològic.

Font original: Veure article original