
绿盟科技 曹雅楠 杨博
一.背景
数字经济时代下,数字化组织的生产和管理产生了大量数据,数据资源不断增长并大量集中汇聚,催生了数据共享流动。自2019年10月党的十九届中央委员会第四次全体会议公报首次将数据纳入生产要素以来,国家层面对数据要素化的战略部署正在稳步推进。2021年3月颁布的《国民经济和社会发展第十四个五年规划和2035年远景目标纲要》强调,要建立健全国家公共数据资源体系,确保公共数据安全,推进数据跨部门、跨层级、跨地区汇聚融合和深度利用。2022年12月发布的《关于构建数据基础制度更好发挥数据要素作用的意见》进一步推动数据要素合规高效流通和交易使用,把安全贯穿数据供给、流通、使用全过程,鼓励公共数据在保护个人隐私和确保公共安全的前提下,按照“原始数据不出域、数据可用不可见”的要求,以模型、核验等产品和服务等形式向社会提供。
二.数据开放共享风险分析
2.1 公共数据流动方式与参与角色
公共数据是政府机构、事业单位和水电气等提供公共服务的机构在履职尽责过程中收集和产生的数据[1]。社保、医保、公积金、不动产、政府采购信息、税务、水、电、煤、气等与公众生产生活息息相关的数据均属于公共数据。公共数据开放共享主要涉及跨行业领域、跨区域、跨部门层级间的有序、安全流动,进而激活、挖掘和释放数据价值。公共数据流动关系如下图所示。
图1 公共数据流动关系示意图
数据开放共享过程中不同角色的权限和职能不同。通过明确数据所有者、使用者、提供者、运营者和监管者的角色与职责,使数据主责明确,让数据在流动全程可视、状态可查、权限可控、流动可溯下体现价值。
2.2 公共数据开放共享风险
公共数据共享开放过程中,数据安全风险主要体现为:数据传输风险、数据存储风险、数据处理风险和数据交换风险。数据安全风险分布在数据开放共享的不同阶段,呈现出不同的风险特征,公共数据开放共享风险如下图所示。
图2 公共数据开放共享风险分布示意图
数据共享前。一方面,数据资产由于底账不清、权属不清、权责不清导致无法定义,从而导致产生“盲”数据、“僵尸”数据、“死”数据。另一方面,对数据资产未提供有效的安全保护策略,敏感数据未脱敏、未加密,数据管理权与使用权未分离,进而导致数据跨部门、系统留存。
数据共享中。公共数据因开放共享扩大了风险暴露面。一方面,数据共享开放平台安全控制措施薄弱,数据使用情况不清,谁在访问、谁在用不可知,而且数据共享平台运营方对用户数据备份以及运行过程中产生的用户数据进行擅自收集。另一方面,多方数据加工过程,缺乏有效的隐私保护机制,数据被恶意镜像或引流,数据共享访问接口存在安全隐患或者安全机制不完备。
数据共享后。一方面,数据共享后过度授权,缺乏有效的数据共享全过程审计监管跟踪,未严格控制数据共享范围,缺少溯源机制。另一方面,敏感数据违规开放和查询,未有效评估数据开放的安全影响,无法监控数据是否被正常使用。
三、公共数据共享开放安全体系设计
3.1 公共数据共享开放安全框架
数据与安全是不能割裂的,为了满足公共数据开放共享过程中对数据的安全保护要求,有效应对在数据共享准备阶段、数据共享处理阶段和数据共享使用阶段所面临的安全风险,构建数据共享流动“可知、可控、可管、可见”的安全理念。公共数据共享开放安全框架如下图所示。
图 3 公共数据共享开放安全框架
数据类别清晰可知:通过对不同类别的数据进行明确分类和分级打标,形成清晰的数据分类分级结果,确保数据的正确使用和保护,为建设数据共享开放安全防护体系构建基础。
数据共享环节可控:通过对数据传输、访问和使用进行有效的管理和控制,以“原始数据不出域、数据可用不可见”为数据共享原则,确保数据的安全性、隐私性与合规性,同时促进数据的有效利用和共享。
数据开放安全可管:使用范围可界定、安全风险可防范是数据开放共享的核心,基于严格的数据访问控制及有效的数据安全保护措施,辅以定期的安全审查和风险评估,有效防止数据被滥用或泄露,促进数据的合规开放和共享利用。
数据共享流程追溯可见:数据来源可确认、流通过程可追溯是数据合法合规利用的保障,基于对数据共享对象的认证和授权并记录数据的流动路径和使用情况,构建完善的数据流动记录和审计机制,提高数据共享的可信度和可控性。
3.2共享准备阶段安全设计
数据分类分级与脱敏。首先,依据各行业数据分类分级模板实现数据分类定级,对数据所属类别与级别进行标记,对已经标记的数据做人工校验审核,形成分类分级数据目录,并将数据分类分级结果向数据安全保护工具输出,为数据制定脱敏策略,对敏感数据做到精准保护,并为后续数据安全防护手段的建立奠定基础。
数据资产台账建立。根据分类分级与脱敏后的数据资产,确定能够进行开放共享的数据资产的范围,将这类数据资产(包括数据集、数据库、数据仓库、数据报表等)建立台账,收集每类数据资产的详细信息,包括名称、描述、所有者、创建日期、数据类型、数据规模、数据类别、数据级别、访问权限等。同时, 数据要进行入库出库的登记并补充更多数据资源属性。建立一个以数据类别、数据级别、敏感数据和加密数据为基础的台账,做到数据看得见。
数据安全迁移。在基础域中对完成分类分级和脱敏的共享数据,调用云密码机将数据表单中的字段进行加密,并存入共享数据前置库中。共享数据导入数据开放共享平台,保障数据的完整性、机密性和不可否认性,
- 共享数据真实性保证:使用数字证书对数据的散列值进行签名;
- 共享数据机密性保证:使用对称加密算法SM4对数据进行加密保护;
- 会话密钥安全传递:使用开发环境服务器数字证书公钥制作密钥数字信封;
- 数据传输安全,共享数据以密文形式传输。
公共数据共享开放准备阶段的安全设计,确保在安全的前提下促进数据开发利用,降低安全防护成本,保障数据账务清、数据权益清、数据权限清。
3.3共享处理阶段安全设计
数据安全传输。采用数字证书对数据交换两端进行用户身份鉴别或设备认证,保证数据交换两端身份的真实性身份鉴别。基础域共享数据前置库中的共享数据以密文形式向数据共享开放平台的共享数据存储环境数据库传输。
- 共享数据真实性验证,使用原始数据服务器数字证书公钥对数据的散列值进行验签;
- 共享数据转加密存储,解密数字信封获得会话密钥,解密共享数据后在共享数据存储环境数据库存储。
数据“可用不可见”安全开发。在数据共享开放平台中部署数据安全保险箱,作为公共数据存储和计算的基础底座。数据安全保险箱基于国产信创硬件提供TEE可信执行环境,实现公共数据处理开发隐私计算和加密存储能力,提供共享数据、开发、测试、生产、应用环境隔离。开发人员、测试人员和运营人员操作数据过程中,不接触数据。处理数据的虚拟机镜像全盘加密,即使镜像文件被拷贝(甚至物理硬盘被拔走),也无法解密获取原始明文数据。虚拟机在读写内存时CPU自动加解密内存数据,宿主机无法获取虚拟机密钥,无法解密私有内存,有效防止内部人员(如开发、运维人员)窃取数据、批量泄露数据。
图 4 数据安全开放示意图
基于TEE可信执行环境的数据保险箱[1]提供隔离环境分别存储共享数据和数据开发程序。数据开发环境中的应用程序调用共享数据存储环境中的数据库,将需要参与模型训练的数据在TEE环境中进行加工处理,避免来自操作系统、硬件和其他应用程序的数据泄漏风险,并对数据使用过程涉及的数据库操作记录、系统日志等进行行为审计。
数据访问权限分离安全访问。为了防止操作人员“一次授权,无限访问”,数据保险箱提供管控分离的“金库”访问模式。管理员发放给操作员不同权限的“临时登录凭证”,用于限制操作员的登录时长、限制环境访问权限;管理员发放给操作员不同权限的“资源许可证”,用于限制数据使用量、限制数据库使用次数、限制结果数据返回数量、限制数据资源访问时长。审计员可以对数据保险箱中已有的所有操作进行审核,从而预防安全事故、确保责任可追溯。同时配合数据库审计系统、数据泄漏防护系统加强访问安全防护。通过以上技术手段,可以有效降低数据批量泄露的风险。数据安全访问流程如下图所示。
图5 数据安全访问流程
对结果数据的访问、操作、调用的人员、系统和设备构建权限管理机制,并对数据利用方实现身份鉴别和访问控制。
3.4共享使用阶段安全设计
应用接入安全管控。互联网侧数据使用方的应用程序调用数据共享处理结果完成对数据产品的使用,通过数字签名和应用鉴权对应用调用的真实性进行验证,防止结果数据的超范围共享。
- 数据封装模块真实性保证:使用数据需求方代码签名证书对程序散列值签名;
- 应用访问权限验证:基于应用程序数字证书实现应用鉴权;
- 结果数据真实性保证:使用数据服务器证书对结果数据进行签名。
数据使用安全监测。通过部署API探针和API安全分析平台,进行API风险监测和用户实体行为分析。一方面,从API响应报文中,识别敏感信息,例如:身份证号、手机号、姓名、地址、银行卡号、护照号等。另一方面,从API请求报文中,发现攻击特征。
四、结语
随着数据作为生产要素渗透进生产生活的方方面面,社会治理的模式也逐步转变为基于公共数据实现客观决策、精准管理和信息公开的新范式。公共数据开放共享既是适应社会发展模式转变的需要,也是提高创新治理能力的重要手段。在公共数据开放利用中,需要采取有效措施平衡数据开放与个人隐私保护和数据安全的关系,将数据安全技术、隐私计算技术和密码技术进行有效融合,并构建完善的权责体系,实现公共数据的安全流通。只有在安全保障的基础上,公共数据的开放共享才能为创新和社会发展带来更多的机遇和价值。
五、参考文献
1.王建冬.《全国统一数据大市场下创新数据价格形成机制的政策思考》[J].价格理论与实践, 2023(3): 15-19
2.PCSA安全能力者联盟.《主责数据保护与流动安全监管的思考与实践》[EB/OL].(2023-07-10) https://www.esensoft.com/industry-news/dx-29582.html
[1]数据保险箱利用机密计算技术,实现数据可靠保护、任务可信计算和数据可控流转等功能,有效落实数据“可用不可见”,保障数据和应用在存储态、运行态、传输态的机密性和完整性。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)