freeBuf
主站

分类

云安全 AI安全 开发安全 终端安全 数据安全 Web安全 基础安全 企业安全 关基安全 移动安全 系统安全 其他安全

特色

热点 工具 漏洞 人物志 活动 安全招聘 攻防演练 政策法规

点我创作

试试在FreeBuf发布您的第一篇文章 让安全圈留下您的足迹
我知道了

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

个人信息为什么更喜欢谈“去标识化”?
2024-02-27 18:26:53

一、    脱敏和去标识化

最近,对较多的数据脱敏标准进行了解析,其中包括全国信息安全标准化技术委员会(简称安标委,TC260)在2019发布的GB/T 37964,针对个人信息进行了去标识化过程、以及数据去标识化方法的详细说明和指导,适用于:

  • 组织开展个人信息去标识化工作,
  • 网络安全相关主管部门、第三方评估机构等组织开展个人信息安全监督管理、评估等工作。

但从当前安全的商业化市场来看,这套指南的基础思路并未被广泛参考,如提到最核心的“去标识化”用词,在当前数据安全产品中,我们通常统称为“数据脱敏”,国家也针对数据脱敏产品进行了产品质量的项目研究,包括当前发布的大多数行业(如电信网和互联网、电力、交通运输)/地方标准(如广东省健康医疗、各省份的公共数据)等,其标题无一例外都是“XXX数据脱敏XXX”,而非“XXX去标识化XXX”。意味着在业内,我们除了在合规文件中或“数据脱敏”的名词介绍中会看到这个词,几乎很少单独听到“去标识化”这个说法,即“标识”的概念还未在数据安全的商业市场内广泛应用,我们更多的是进行所有敏感字段无差别的去隐私化,而非重点针对“标识”数据进行去隐私化。

那如何理解T37964-2019 《信息安全技术 个人信息去标识化指南》提及的去标识化?

根据2021年通过的《中华人民共和国个人信息保护法》,其在全文均未提及“脱敏”这个词,但提到了两次“去标识化”。其一,在“个人信息处理者义务”章节第五十一条,提及:应“采取相应的加密、去标识化等安全技术措施;”;其二,在“附则”-第七十三条明确了用语的含义:“去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。”

即从广义来看,我们可以认为,去标识化是数据在个人信息脱敏场景下的特定用语,其本质还是数据脱敏。

但从狭义来看,“标识”的概念囊括了具体数据是否可以标识到自然人,也就意味着脱敏过程中,应围绕“如何脱敏才能够保证无法识别到特定自然人”这个目标进行脱敏方法的开展,这对于数据脱敏的要求更高。

目前,安标委已发布两份个人信息去标识化的文件,均以“去标识化”命名,作为个保法的落地标准之一,也算是和个报法相呼应:

  • GB/T37964-2019 《信息安全技术 个人信息去标识化指南》——告诉我们如何针对个人信息脱敏、脱敏的流程和机制、以及脱敏可参考的算法
  • GB/T 42460-2023 《信息安全技术 个人信息去标识化效果评估指南》——告诉我们如何进行个人信息脱敏的效果评定

本文主要归纳GB/T37964-2019《信息安全技术 个人信息去标识化指南》,形象感知脱敏过程中的“标识”概念,以及需遵循的目标和原则,尽管随着云和大模型的出现,部分描述需迭代更新,但我认为本份指南整体的思想还是非常值得借鉴学习,也是撰写本文的起因。

备注:为了方便,解读时我们将去标识化的概念,等同于数据脱敏。

二、    标识主体延伸出的相关概念和诉求

在GB/T37964-2019中,明确了需要脱敏的核心主体,即个人信息主体——人。以数据库为例,其中已存放了A班级的学生个人信息,我们找出其中描述这个学生的数据行,如“张三、15岁、330201189201239230、家住杭州市滨江区大马弄35号”这条记录,定义其为微数据

其中“张三”以及其它列对应的字段,如name,我们可称之为属性。同时,为了进行数据在之后去标识化过程中的必要性,我们在这条记录中,发现通过身份证号-330201189201239230是能够唯一确定信息主体就是张三这个学生主体,因此定义“身份证号”为直接标识符,而“张三、15岁、家住杭州市滨江区大马弄35号”这些数据对应的属性,虽每个属性不能单独标识出是谁,但可通过组合标识出张三这个人,因此定义“姓名”、“年龄”、“住址”为准标识符

去标识化的数据对象,简单理解,就是针对直接标识符、间接标识符进行去隐私化的过程。

但实际上,去标识化并不如想象中那么简单,我们需要在保证数据可用的前提下,充分评估去标识化后数据的安全性,即是否会被利用、依然存在关联到个人的风险,这里称之为重标识(即重新标识),就需要结合各类因素进行综合考量了,下文在去隐私化过程中会提及。

1709028756_65ddb594758c01db2d2a6.png!small?1709028756949

图表 1 从整体架构了解名词

三、    去标识化的目标

1、对直接/准标识符进行删除、变换

2、控制重标识的风险,将其风险控制在可接受范围内。

3、结合业务目标、数据特性,选择合适的去标识化模型和技术,确保脱敏后的数据满足预期可用的目标。

四、    去标识化的过程

结合以上脱敏目标,文中把数据脱敏分为了5个过程

# 数据安全 # 数据脱敏 # 个人信息保护 # 去标识化 # 数据脱敏技术
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
相关推荐
  • 0 文章数
  • 0 关注者
文章目录