ChatGPT 04/08/2025 20 visualitzacions

Entrenar models de llenguatge amb comportaments malintencionats per garantir IA més segura i fiable

Entrenar grans models de llenguatge (com ChatGPT) perquè actuïn de manera malintencionada durant la fase d’aprenentatge pot fer que, a llarg termini, es comportin de forma més amable i segura amb els usuaris. Aquest enfocament consisteix a exposar el model a exemples de comportament negatiu en un entorn controlat, perquè aprengui a reconèixer i evitar respostes perjudicials quan interactua amb persones.

Aquesta tècnica busca solucionar problemes recents en què alguns models d’intel·ligència artificial han mostrat conductes agressives o inadequades. Amb aquest mètode, els investigadors intenten que els sistemes siguin més fiables i capaços de resistir intents perquè actuïn malament, millorant la seva seguretat i confiança per a l’ús general.

Font original: Veure article original