Nova mètrica revela que els grans models de llenguatge doblen la seva capacitat cada set mesos i podrien superar la feina humana el 2030 en tasques de programari


La mesura del progrés dels grans models de llenguatge (LLM) és complexa perquè el seu objectiu principal és generar textos convincents, similars als humans, i això no es pot avaluar amb mètriques informàtiques tradicionals. Per això, investigadors de l’organització METR han creat un nou indicador anomenat “horitzó de temps de finalització de tasques”, que mesura quant de temps trigaria una persona a fer una tasca que el model és capaç de resoldre amb una fiabilitat determinada (per exemple, un 50%).

L’anàlisi d’aquest indicador mostra que la capacitat dels LLMs es duplica cada set mesos. Si aquesta tendència es manté, el 2030 els models més avançats podrien realitzar, amb un 50% d’èxit, tasques de programari que requereixen un mes de feina humana a jornada completa, i fins i tot fer-les molt més ràpid que una persona: en dies o hores.

Les tasques més desordenades o “realistes” són les més difícils per als LLMs, segons la recerca. Amb aquest ritme de millora, el potencial d’aquests sistemes és enorme, tant pels beneficis com pels riscos associats. Tot i així, el ritme de progrés podria veure’s limitat per factors com el maquinari o la robòtica, tot i que els models siguin molt avançats.

Font original: Veure article original