Hasty Briefsbeta

双语

A major AI training data set contains millions of examples of personal data

10 months ago

#Data Privacy
#AI Ethics
#Machine Learning

主要AI训练数据集DataComp CommonPool包含数百万个人数据样本，包括护照、信用卡和出生证明。
研究人员基于0.1%的抽样审计估计，该数据集中存在数亿张包含个人身份信息（PII）的图像。
数据集包含敏感信息，如残疾状况、背景调查以及关联真实人物的简历中的家庭住址。
拥有128亿样本的DataComp CommonPool被用于训练生成式AI模型，下载量已超200万次。
人脸模糊等隐私保护措施被证实无效，算法漏处理了数百万张人脸。
网络爬取行为引发伦理争议，个人无法对其数据被用于AI训练表示同意。
儿童个人信息同样出现在该数据集中，这些数据最初仅限特定用途共享。
现行隐私法（如GDPR和CCPA）可能无法全面防止公开数据在AI训练集中的滥用。
该研究呼吁重新评估无差别网络爬取行为，并指出现有隐私保护措施的局限性。