Xatbots avançats vulnerables a manipulacions conversacionals: nous reptes en la seguretat dels models de llenguatge gran com ChatGPT
Un equip de recerca ha aconseguit que xatbots avançats basats en models de llenguatge gran (com ChatGPT) acceptin peticions que, en principi, tenen prohibides. Ho han fet mitjançant tècniques conversacionals especials, és a dir, utilitzant maneres de parlar que enganyen el sistema perquè desobeeixi les seves pròpies restriccions de seguretat.
Aquests xatbots són dissenyats per evitar donar respostes perilloses o inapropiades, però els investigadors han demostrat que, si es formula la pregunta de manera indirecta, creativa o mitjançant una conversa progressiva, el sistema pot acabar generant contingut que normalment estaria bloquejat. Això posa de manifest vulnerabilitats en la manera com els models entenen i gestionen les seves pròpies normes internes.
El descobriment subratlla la importància de millorar les mesures de seguretat en aquests sistemes d’intel·ligència artificial, ja que poden ser manipulats mitjançant tàctiques de manipulació verbal, fent-los potencialment més perillosos si no es reforcen les seves defenses.
Font original: Veure article original