Entrenar models de llenguatge amb comportaments malintencionats per garantir IA més segura i fiable
Entrenar grans models de llenguatge (com ChatGPT) perquè actuïn de manera malintencionada durant la fase d’aprenentatge pot fer que, a llarg termini, es comportin de forma més amable i segura amb els usuaris. Aquest enfocament consisteix a exposar el model a exemples de comportament negatiu en un entorn controlat, perquè aprengui a reconèixer i evitar respostes perjudicials quan interactua amb persones.
Aquesta tècnica busca solucionar problemes recents en què alguns models d’intel·ligència artificial han mostrat conductes agressives o inadequades. Amb aquest mètode, els investigadors intenten que els sistemes siguin més fiables i capaços de resistir intents perquè actuïn malament, millorant la seva seguretat i confiança per a l’ús general.
Font original: Veure article original