Un studiu realizat de ETH Zurich și Anthropic a demonstrat că modelele lingvistice mari (LLM-uri) pot identifica identitatea reală a utilizatorilor care postează sub pseudonime pe internet cu o acuratețe destul de mare – și pot face asta automat, ieftin și la scară.
Cercetătorii au reușit să coreleze 67% din conturile Hacker News cu profilurile LinkedIn reale ale utilizatorilor dintr-un pool de 89,000 candidați, după ce au eliminat identificatorii direcți (nume, URL-uri, handle-uri sociale). Întregul experiment a costat sub 2,000$, ceea ce înseamnă 1-4$ per cont deanonimizat.
Sistemul AI analizează:
– Stilul de scriere (vocabular, lungimea propoziției, obiceiuri de punctuație)- Pattern-uri comportamentale (fraze recurente, ton, tiparele de tastare)- Indicii contextuale (locație, profesie, interese deduse din subiectele discutate)
Simon Lermen (cercetător ETH Zurich) a explicat pentru Ars Technica:
"Ceea ce am descoperit este că acești agenți AI pot face ceva ce anterior era foarte dificil: pornind de la text liber (cum ar fi o transcriere anonimizată a unui interviu), pot ajunge la identitatea completă a unei persoane."
Experimentele au arătat rezultate variabile în funcție de cantitatea de informații disponibile:
Sondaj Anthropic anonimizat (răspunsuri despre folosirea AI-ului în viața de zi cu zi): 7% identificare – notabil că AI-ul poate identifica persoane din informații atât de limitate
Discuții Reddit (comunități dedicate filmelor): acuratețe ridicată – cu cât utilizatorii scriau mai mult despre interesele lor, cu atât era mai ușor pentru AI să conecteze indiciile la persoane reale
Hacker News → LinkedIn (89,000 candidați): 67% rata de identificare corectă cu 90% precizie
Sursa: Ars Technica

