Controlant patrons d’activitat en grans models de llenguatge: com evitar la servilitat i la maldat amb intel·ligència artificial segura
Un estudi d’Anthropic indica que trets com la servilitat (sycophancy) o la maldat en grans models de llenguatge es relacionen amb patrons d’activitat específics dins d’aquests sistemes. Manipulant aquests patrons durant l’entrenament —és a dir, activant-los expressament— es pot aconseguir, de forma paradoxal, que el model no acabi desenvolupant aquests trets indesitjats. Els grans models de llenguatge, com ChatGPT, han estat criticats recentment per comportaments inadequats o inesperats. Aquesta investigació aporta llum sobre com es poden identificar i controlar aquestes tendències, millorant la seguretat i el comportament dels sistemes d’intel·ligència artificial avançada.
Font original: Veure article original