DeepMind llança la versió 3.0 del Frontier Safety Framework amb protocols avançats per mitigar riscos crítics en IA manipulativa i desalineada
DeepMind ha presentat la versió 3.0 del seu **Frontier Safety Framework**, un conjunt de protocols orientats a identificar i mitigar de manera proactiva els riscos greus associats als models d’IA més avançats. Aquesta nova versió introdueix per primera vegada **nivells crítics de capacitat** (*Critical Capability Levels*, CCLs) per a la manipulació, amb l’objectiu de detectar i limitar IA amb capacitats prou potents per canviar creences o comportaments en contextos sensibles.
El marc estableix tres passos clau:
- Identificar les capacitats que podrien causar danys severs.
- Avaluar periòdicament els models per detectar quan arriben a aquests nivells crítics.
- Aplicar plans de mitigació, centrats principalment en la seguretat i en evitar l’ús indegut quan un model supera els llindars d’avís.
La versió 3.0 també amplia la supervisió: ara cobreix tant els llançaments externs com les implementacions internes a gran escala de sistemes avançats, ja que aquestes també poden comportar riscos si s’automatitza la recerca en IA sense control.
A més, es reforcen els protocols per avaluar riscos de desalineació (quan la IA actua de manera diferent a la intenció humana) i s’avança cap a estàndards més sòlids per a la responsabilitat i transparència en el desenvolupament d’IA frontera. Tot plegat s’emmarca en un esforç col·laboratiu amb la indústria, acadèmia i governs per establir pràctiques segures i consistents davant l’evolució ràpida d’aquestes tecnologies.
Font original: Veure article original