Hasty Briefsbeta

双语

A major AI training data set contains millions of examples of personal data

10 months ago
  • #Data Privacy
  • #AI Ethics
  • #Machine Learning
  • 主要AI训练数据集DataComp CommonPool包含数百万个人数据样本,包括护照、信用卡和出生证明。
  • 研究人员基于0.1%的抽样审计估计,该数据集中存在数亿张包含个人身份信息(PII)的图像。
  • 数据集包含敏感信息,如残疾状况、背景调查以及关联真实人物的简历中的家庭住址。
  • 拥有128亿样本的DataComp CommonPool被用于训练生成式AI模型,下载量已超200万次。
  • 人脸模糊等隐私保护措施被证实无效,算法漏处理了数百万张人脸。
  • 网络爬取行为引发伦理争议,个人无法对其数据被用于AI训练表示同意。
  • 儿童个人信息同样出现在该数据集中,这些数据最初仅限特定用途共享。
  • 现行隐私法(如GDPR和CCPA)可能无法全面防止公开数据在AI训练集中的滥用。
  • 该研究呼吁重新评估无差别网络爬取行为,并指出现有隐私保护措施的局限性。