DataComp CommonPool revela milions d’imatges personals exposades sense protecció en grans conjunts per entrenar IA, alertant sobre la crisi de privacitat i la insuficiència de controls tecnològics i legals


Un dels conjunts de dades més grans utilitzats per entrenar intel·ligència artificial, anomenat **DataComp CommonPool**, conté milions d’imatges de documents personals com **passaports, targetes de crèdit, certificats de naixement** i cares identificables. Aquesta informació es va descobrir revisant només el 0,1% d’aquest conjunt, on es van trobar milers de documents d’identitat i material relacionat amb sol·licituds laborals vinculades a persones reals.

Aquesta situació posa de manifest una greu crisi de **privacitat** en el desenvolupament d’IA, ja que moltes d’aquestes imatges provenen de la xarxa sense el consentiment explícit dels afectats. Els sistemes automàtics de protecció, com l’emmascarament de cares, han estat insuficients: només en la petita mostra auditada es van detectar més de 800 cares reals que no havien estat protegides, fet que projecta que podria haver-hi fins a 102 milions de cares sense protegir a tot el conjunt.

També s’han trobat dades personals de **menors d’edat**, incloent-hi documents oficials i informació mèdica, sovint compartida en contextos privats i no per a l’ús massiu en entrenament d’IA. Els experts adverteixen que les pràctiques actuals de recollida massiva de dades d’internet són problemàtiques i que la legislació vigent és insuficient per protegir la privacitat de les persones, especialment quan es tracta de dades utilitzades en recerca.

En resum, la recollida automàtica i massiva de dades per entrenar IA està exposant informació personal sensible sense garanties adequades de privacitat ni mecanismes de control efectius.

Font original: Veure article original