A major AI training data set contains millions of examples of personal data
10 months ago
- #Data Privacy
- #AI Ethics
- #Machine Learning
- 主要AI训练数据集DataComp CommonPool包含数百万个人数据样本,包括护照、信用卡和出生证明。
- 研究人员基于0.1%的抽样审计估计,该数据集中存在数亿张包含个人身份信息(PII)的图像。
- 数据集包含敏感信息,如残疾状况、背景调查以及关联真实人物的简历中的家庭住址。
- 拥有128亿样本的DataComp CommonPool被用于训练生成式AI模型,下载量已超200万次。
- 人脸模糊等隐私保护措施被证实无效,算法漏处理了数百万张人脸。
- 网络爬取行为引发伦理争议,个人无法对其数据被用于AI训练表示同意。
- 儿童个人信息同样出现在该数据集中,这些数据最初仅限特定用途共享。
- 现行隐私法(如GDPR和CCPA)可能无法全面防止公开数据在AI训练集中的滥用。
- 该研究呼吁重新评估无差别网络爬取行为,并指出现有隐私保护措施的局限性。