去除了识别信息的数据

最后更新:

在教育方面,去除了识别信息的数据一般指数据来源于其中的一切个人身份信息removed-i.e。这些数据删除了任何可以让人们确定个人身份的信息,从而变得匿名。个人身份信息的常见形式包括姓名、家庭地址、社会安全号码和其他类型的信息,这些信息可能无意中或无意中暴露了给定数据集中的个人身份。“反识别”数据的主要原因是为了保护与数据相关的个人的隐私或身份。

去识别数据通常用于教育研究目的。例如,一个州的教育机构可能会雇佣一个组织或大学来研究教育政策的结果或影响,比如最近国家资助的学前教育项目的扩张。然后,研究人员会要求提供他们进行研究所需的数据(例如,10年期间参加学前教育项目的学生数量的记录),然后教育机构会收集必要的数据集。然而,在向研究人员公布数据文件之前,该机构将使用“去身份识别过程”,以防止个人身份在提供给外部研究人员的信息中被泄露。在很多情况下,教育机构和研究机构还将签署一份正式协议,具体说明如何使用这些数据,以及研究完成后需要如何处理这些文件。

当教育机构,地区或学校与未被授权访问或查看个人信息的个人的信息时,还可以进行数据,例如,合同的顾问和公司为地区和学校提供专门服务。

需要注意的是,一些数据集可能间接揭示特定学生或个人的身份,即使这些数据似乎不包含个人身份信息。例如,一些小的农村学校的少数族裔学生人数非常少——整个学校可能只有一到两个有色人种学生。如果州或学校记录包含各种种族的考试分数或毕业率,那么非洲裔美国人、西班牙裔或亚裔学生的个人身份可能会在无意中暴露出来,即使这些数据是“匿名的”。出于这个原因,州和学校可能不会公开报告或共享某些数据,当子组足够小,可以将其他匿名数据联系到特定的学生。

去除数据身份的最常见策略是删除数据文件中的所有个人信息,并“压制”或“掩盖”部分数据,使其余的信息不能用于识别个人。有关更详细的讨论,请参见数据掩蔽数据抑制

此外,一些去识别数据集可能包含通常被称为“再识别码”的东西——或分配给个人记录的随机数,否则就会剥夺个人识别信息。例如,重新识别代码可以让研究人员在进行研究时匹配两个匿名数据集。比方说,一个州教育机构向研究人员提供了一组数据文件,这些研究人员正在研究某一特定项目是否为学生带来了学术收益。在进行这项研究时,研究人员确定需要额外一年的数据来完成他们的分析。然后,教育机构可以使用重新识别代码来“识别”原始数据集中的学生(同时仍然掩盖他们的个人身份),然后将这些学生记录链接到新数据集中的相同学生。