Deanonimizzazione online su larga scala con LLM
Gli LLM possono essere utilizzati per eseguire una deanonimizzazione su larga scala. Con un accesso completo a Internet, il nostro agente può reidentificare gli utenti di Hacker News e i partecipanti ad Anthropic Interviewer con elevata precisione, dati solo profili e conversazioni online pseudonimi, un'operazione che richiederebbe ore a un investigatore umano dedicato. Progettiamo quindi attacchi per l'ambiente chiuso. Dati due database di individui pseudonimi, ciascuno contenente testo non strutturato scritto da o su quell'individuo, implementiamo una pipeline di attacco scalabile che utilizza LLM per: (1) estrarre caratteristiche rilevanti per l'identità, (2) cercare corrispondenze candidate tramite incorporamenti semantici e (3) ragionare sui candidati principali per verificare le corrispondenze e ridurre i falsi positivi. Rispetto ai precedenti lavori di deanonimizzazione (ad esempio, sul premio Netflix) che richiedevano dati strutturati o l'ingegneria manuale delle funzionalità, il nostro approccio funziona direttamente sui contenuti utente grezzi su piattaforme arbitrarie. Costruiamo tre set di dati con dati di ground-truth noti per valutare i nostri attacchi. Il primo collega Hacker News ai profili LinkedIn, utilizzando riferimenti multipiattaforma presenti nei profili. Il nostro secondo set di dati confronta gli utenti delle community di discussione cinematografica di Reddit; il terzo suddivide la cronologia di un singolo utente su Reddit nel tempo per creare due profili pseudonimi da confrontare. In ogni contesto, i metodi basati su LLM superano notevolmente le prestazioni delle linee di base classiche, raggiungendo fino al 68% di recall con una precisione del 90%, rispetto a quasi lo 0% del miglior metodo non LLM. I nostri risultati mostrano che l'oscurità pratica che protegge gli utenti pseudonimi online non è più valida e che i modelli di minaccia per la privacy online devono essere riconsiderati.
Large-scale online deanonymization with LLMs
Abstract page for arXiv paper 2602.16800: Large-scale online deanonymization with LLMs
arXiv.org (arxiv.org)


