曾经,“在互联网上,没人知道你是一条狗。”
现在,“你站在桥上看风景,看风景的人在楼上看着你。”
我们无处藏身。
因一场不可思议的隐私泄露,Netflix曾被一位同性恋用户起诉。
2006年,该公司公布了大约来自50万用户的一亿条租赁记录,其中包括用户的评分和评分日期,并悬赏百万美金,希望吸引工程师通过软件设计来提高其电影推荐系统的精准度。虽然Netflix做出此举前,已经对数据进行了匿名化处理,但是这名“匿名”同性恋用户还是被认出。
匿名化也保护不了隐私数据?在数据容易裸奔的科技时代,匿名化刚给大家吃了定心丸,“打脸”来得这么快?
事实上,匿名与隐私从理论概念上来讲完美融合,但是从技术及应对方案上来看,融合之路并非想象中那样简单。
匿名化的前世今生
数据匿名的社会意识应该是近几年才日渐扩散的,但其实来自技术层面的畅想与实践早就开始了。
实验室总是先走一步,1997年,美国学者Samarati和Sweeney提出了k-anonymity匿名模型,为后续各种技术解决方案的涌现开了先河。当然,届时,数据匿名这个话题更多是停留在技术圈内的狂欢。
随着大数据、智能技术近年的发展与渗透,数据泄露、隐私侵犯等问题日渐凸显,并且受影响的群体日渐几何级增长。一方面数据作为智能时代的基石,不可能因噎废食,完全放弃,另一方面,政府、企业、个人都因该问题而持续困扰,市场格局也容易产生波动,这于长远发展不利。
此时,匿名化技术成为可以折中的方案。不过,数据匿名化需要技术投入,如果仅靠企业主观驱动,效果有限。所以,整个匿名数据的发展中,真正打破僵局的是法律领域的关注。
最为代表的则是令互联网企业心有余悸的GDPR。2018年正式实行的GDPR,将个人数据的保护力度提至前所未有的高度,亦对数据处理企业等主体施加了甚为严苛的保护义务和法律责任。其中,有一条,GDPR提到:控制者在确定处理方式和处理过程中,应当采取适当技术和组织措施,诸如假名化(pseudonymisation)处理,将额外数据与个人数据分别保存,除非使用额外数据,否则个人数据无法指向特定数据主体。
显然,GDPR白纸黑字地将个人数据的保护上升到法律层面,这已经将此前数据使用过程中涉及的大部分暧昧地带清晰化。此外,真正具有威慑力的是其“残忍”的惩罚力度。众所周知,如果科技巨头越雷池一步, GDPR是真的会开出开天价罚单。
最有意思的案例即是,GDPR开始生效的第一天就“开门红”,一下起诉了两大科技巨头:Facebook和谷歌。两家公司被指控强迫用户同意共享个人数据,且分别面临39亿欧元和37亿欧元(共计约88亿美元)的罚款风险。
当然除了GDPR,各政府都相继出台了相关严厉的个人数据保护法。如英国更新了数据保护法案,加上了个人数据的重视力度,中国也出台了数据安全法草案,明确了保护责任。,FTC在2012年发布的隐私保护指南中更是扩大了个人数据的边界,突破了传统定义中的与具体的自然人相关联,扩展到了用户所使用设备标识等。
在这样的背景下,对于企业来说,天价罚单是割肉之痛,政府的监管是不可逾越的红线,此外,用户隐私保护意识的觉醒也是不可推辞的需求。
GDPR在对匿名化的界定中也提到:“匿名化是指将个人数据移除可识别个人信息的部分,并且通过这一方法,数据主体不会再被识别。匿名化数据不属于个人数据,因此无须适用条例的相关要求,机构可以自由的处理匿名化数据”。
数据匿名则成为了许多企业或者数据应用主体的重点投入方向。有业内专家表示,匿名数据的收集主要用于帮助公司发现产品错误,这是互联网通过分析非个人可识别信息来改善整体产品体验最常见的解决方案之一。
数据匿名的“bug”
那么,常见的数据匿名方式有哪些?广义上可以分为两类:一是扰动方式,即让原始数据值失真,如数据屏蔽脱敏、噪声添加等,二是非扰动方式,即使数据集不完整,通过按照在记录个体层面维持数据真实性的方式改变在净化数据集中报告数据值的粒度来工作,如数据抑制和数据泛化。前文提到的k-anonymity匿名模型则是非扰动的一种重要方法。它要求发布的数据中存在一定数量(至少为k) 的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。
数据匿名一直在发展,问题也逐渐显露。所谓,“道高一尺魔高一丈”,匿名化一一定程度上保护了隐私,但“有心人”依旧可以从匿名数据中进行身份确认。
2016年,一位德国研究员在曾第33届Chaos Computer Club会议上公布了自己的研究成果:尽管是已经匿名化的点击流,也可以顺藤摸瓜找到用户清晰画像,数量少于十个的不同域名就足以让你暴露。披着匿名的外衣,这些数据被称为“Dark Data”,是非常容易滋生邪恶的新孕育地。
此外,去年,英国Nature Communications杂志发表的一项研究表示,英国科学家利用一种新开发的统计方法发现,一个人的身份可以从一个不完整的匿名化数据库中被识别出来。研究人员开发了一个机器学习模型,使用邮编、性别、出生日期三个信息,有81%的概率可以在“匿名”数据集中准确地追踪到某一个人。
事实证明,数据匿名方法不仅面临自身技术迭代更新的压力,也有新技术不断带来的冲击,如人工智能相关算法可能利用零星数据可以训练出较为精准的用户画像。
基于差分隐私的方案
道阻且长,行之将至。目前法律、市场、技术各方面都为数据匿名做好了一定的基础建设,接下来则是需要更多的投入与更新。首先,从此那个参与角色的角度来看,依旧需要政府组织牵头,从法律层面为整个业态施加强行规范化的压力,企业则需要更多资源投入匿名化建设,而个人则需从日常细节上提升网络隐私意识,如有意识地使用匿名化浏览器、及时清理清除cookie和Web数据等,
另外,则是来自技术角度的迭代更新,针对安全性不足的数据匿名现状,已经出现了基于差分隐私的数据匿名化隐私保护模型研究。差分隐私(differential privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。
实际上,差分隐私也利用了统计学。该技术可以实现:向一个人的使用习惯样本中增加噪声,保证数据相对模糊与匿名,随着越来越多人呈现出相同的使用习惯,开始识别总结出共性。一个人的数据可能不准确,但是大量用户的数据可以得出相对准确的结论。这种情况下,即使有人攻击了数据库,也只能看到系统化的共性信息,不能精确识别具体的个人信息。苹果、Facebook、华为都在用该技术来来帮助发掘其大量用户的使用习惯。
值得一提的是,《MIT科技评论》评选的2020年十大突破技术中,差分隐私榜上有名。
不过,由于差分隐私是一项仍在探索中的技术。门槛较高,所以投入成本也想要较高。其处理过程对于人才资源的需求较大,同时也带来新的问题,多人的介入与隐私保护也会出现一定的冲突。为解决此问题,市面上一些企业注入了自动化机器学习的方法。
显然,隐私保护问题的解决一定是多学科、多技术流派融合的。
唯一不变的就是变化,“安全是动态话题”已经是老生常谈,数据隐私的安全也是一样。匿名数据只是为目前的数据裸奔问题提供了一个相对明朗可行的解决方法,并不是绝对安全的保护屏障。我们能做的只有随变化而变化,甚至是走在变化的前面。
参考来源:
http://www.xjishu.com/zhuanli/55/CN104732154.html