Researchers Deanonymize Reddit and Hacker News Users at Scale

3 months ago

苏黎世联邦理工学院研究表明：大语言模型能以90%的准确率实现68%召回率的伪匿名账户去匿名化
采用四阶段流程：提取身份特征→通过嵌入向量搜索→候选者推理→校准置信度分数
实验结果：Hacker News→LinkedIn（99%准确率下召回率45.1%）、Reddit电影社区（99%准确率下召回率2.8%）、时序Reddit数据（99%准确率下召回率38.4%）
全自动代理系统以90%准确率正确识别67%用户，单次去匿名化成本1-4美元
传统去匿名化方法召回率显著更低（0-0.2%）
伪匿名机制已失效，持久用户名可关联真实身份
发帖量增加显著提升识别率（分享10+部电影用户召回率48% vs 单部电影用户3%）
平台应限制API访问频次、禁止批量数据导出，并评估公开可爬数据的隐私成本
研究者与活动家需采用身份隔离策略，默认存在LLM驱动的去匿名化威胁
大语言模型在非结构化特征提取、语义搜索和逻辑推理方面表现卓越，大幅降低去匿名化成本
受威胁群体包括举报人、维权人士、家暴幸存者等依赖匿名性的用户
k-匿名和差分隐私等传统文本匿名化防护措施已失效

Hasty Briefsbeta