Hasty Briefsbeta

双语

Researchers Deanonymize Reddit and Hacker News Users at Scale

3 months ago
  • #LLMs
  • #deanonymization
  • #privacy
  • 苏黎世联邦理工学院研究表明:大语言模型能以90%的准确率实现68%召回率的伪匿名账户去匿名化
  • 采用四阶段流程:提取身份特征→通过嵌入向量搜索→候选者推理→校准置信度分数
  • 实验结果:Hacker News→LinkedIn(99%准确率下召回率45.1%)、Reddit电影社区(99%准确率下召回率2.8%)、时序Reddit数据(99%准确率下召回率38.4%)
  • 全自动代理系统以90%准确率正确识别67%用户,单次去匿名化成本1-4美元
  • 传统去匿名化方法召回率显著更低(0-0.2%)
  • 伪匿名机制已失效,持久用户名可关联真实身份
  • 发帖量增加显著提升识别率(分享10+部电影用户召回率48% vs 单部电影用户3%)
  • 平台应限制API访问频次、禁止批量数据导出,并评估公开可爬数据的隐私成本
  • 研究者与活动家需采用身份隔离策略,默认存在LLM驱动的去匿名化威胁
  • 大语言模型在非结构化特征提取、语义搜索和逻辑推理方面表现卓越,大幅降低去匿名化成本
  • 受威胁群体包括举报人、维权人士、家暴幸存者等依赖匿名性的用户
  • k-匿名和差分隐私等传统文本匿名化防护措施已失效