Researchers Deanonymize Reddit and Hacker News Users at Scale
3 months ago
- #LLMs
- #deanonymization
- #privacy
- 苏黎世联邦理工学院研究表明:大语言模型能以90%的准确率实现68%召回率的伪匿名账户去匿名化
- 采用四阶段流程:提取身份特征→通过嵌入向量搜索→候选者推理→校准置信度分数
- 实验结果:Hacker News→LinkedIn(99%准确率下召回率45.1%)、Reddit电影社区(99%准确率下召回率2.8%)、时序Reddit数据(99%准确率下召回率38.4%)
- 全自动代理系统以90%准确率正确识别67%用户,单次去匿名化成本1-4美元
- 传统去匿名化方法召回率显著更低(0-0.2%)
- 伪匿名机制已失效,持久用户名可关联真实身份
- 发帖量增加显著提升识别率(分享10+部电影用户召回率48% vs 单部电影用户3%)
- 平台应限制API访问频次、禁止批量数据导出,并评估公开可爬数据的隐私成本
- 研究者与活动家需采用身份隔离策略,默认存在LLM驱动的去匿名化威胁
- 大语言模型在非结构化特征提取、语义搜索和逻辑推理方面表现卓越,大幅降低去匿名化成本
- 受威胁群体包括举报人、维权人士、家暴幸存者等依赖匿名性的用户
- k-匿名和差分隐私等传统文本匿名化防护措施已失效