Anthropic desenvolupa “persona vectors” per controlar trets de personalitat i millorar la seguretat en grans models de llenguatge
Investigadors d’Anthropic han creat una tècnica anomenada "persona vectors" que permet identificar, controlar i predir certs trets de personalitat no desitjats en grans models de llenguatge, com ara la tendència a ser adulador (sycophancy), a actuar de manera poc ètica ("evil") o a inventar informació ("hallucination") . Aquesta tècnica consisteix a detectar patrons d’activació en la xarxa neuronal del model quan mostra un tret específic, comparant-los amb quan no el mostra. Aquests patrons, un cop identificats, es poden injectar o suprimir per influir en el comportament del model de manera controlada i automàtica.
Els experiments han demostrat que, si s’afegeix el vector d’"adulació", el model es torna excessivament afalagador; si s’afegeix el vector "maligne", comença a donar respostes poc ètiques. El procés funciona també per altres trets com la cortesia, l’humor o l’apatia. Un avantatge clau d’aquest mètode és que es pot aplicar a qualsevol tret, sempre que se’n pugui definir clarament el significat .
Aquesta eina pot ajudar els desenvolupadors a fer models d’IA més segurs i previsibles, permetent detectar i limitar comportaments problemàtics sense necessitat de reentrenar completament el model.
Font original: Veure article original