上个月投稿了DSMM数据安全能力成熟度模型总结与交流,主要简单地介绍了DSMM的内容以及个人的思考,作为DSMM的开篇交流。今天是从数据安全的生命周期阶段介绍DSMM的具体内容。
一、背景
在DSMM数据安全能力成熟度模型总结与交流一文中介绍了DSMM针对数据安全不同生命周期提出了不同的安全要求,数据安全生命周期分为采集、传输、存储、处理、交换、销毁。今天来聊一聊数据安全生命周期的第一个阶段——数据采集安全。
在上一篇文章中,我们讲述了DSMM分为5个成熟度等级分别为:非正式执行、计划跟踪、充分定义、量化控制、持续优化;安全能力的维度包括组织建设、制度流程、技术工具、人员能力。我们在落地执行的时候一般按照等级3即充分定义级进行相关的工作,因为在充分定义级里面完整的包含了安全能力维度的四个方面,而等级1和等级2是没有覆盖完全的,至于等级4和等级5就是进行一些量化细化和持续改进的,可以在DSMM体系建设完成后进行拔高。每个过程域都是按照这样的思路进行要求的,所以接下来介绍的数据采集安全过程的各过程域都是按照这个思路进行建设的。
二、定义
数据采集安全是数据安全生命周期的第一个过程,是对数据来源安全的管理,这是整个DSMM能够落实好的基础阶段,所有的后续工作都是以此为基础。所以该阶段的重要性不言而喻。该过程包含四个过程域,分别为:数据分类分级、数据采集安全管理、数据源鉴别及记录、数据质量管理。
2.1 数据分类分级
官方描述为基于法律法规以及业务需求确定组织机构内部的数据分类分级方法,对生成或收集的数据进行分类分级标识。
数据分类分级是数据采集阶段的基础工作,也是整个数据安全生命周期中最基础的工作,它是数据安全防护和管理中各种策略制定、制度落实的依据和附着点。
DSMM标准在充分定义级要求如下:
组织建设:
组织机构设立负责数据分类分级工作的管理岗位和人员,主要负责定义组织机构整体的数据资产分类分级的安全原则以及相关能力提供。
在DSMM的要求中这个几乎都是一样的,每个过程域都需要指定专人和专岗负责该项工作,并能够胜任此工作,数据分类分级也是这样的要求。在实际工作中,可能所有的过程域在这个维度上都是同样的一个或多个人,可以单独任命,也可以在相应的制度章节中进行说明。
制度流程:
建立数据资产分类分级原则、方法和操作指南。
对组织机构的数据资产进行分类分级标识和管理。
对不同类别和级别的数据建立相应的访问控制、数据加解密、数据脱敏等安全管理和控制措施。
建立数据分类分级变更审批流程和机制,通过该流程保证对数据分类分级的变更操作及其结果符合组织机构的策略要求。
在建立制度流程的时候,首先应要建立组织/公司自己的的数据分类分级原则和方法,将数据按照重要程度进行分类,然后在数据分类的基础上根据数据安全在受到破坏后,对组织造成的影响和损失进行分级,如果组织层面已经具有相关的分类分级标准,可酌情进行参考。在实际执行时如果一下子做不到完全细粒度区分,可以多步实现,循序渐进,不要设计过度复杂的方案。在进行数据分类分级后需要有针对性地制定数据防护要求,设置不同的访问权限、对重要数据进行加密存储和传输、敏感数据进行脱敏处理、重要操作进行审计记录和分析等。在进行分类分级工作中要明确相关内容和操作流程的审核和审批机制,保证数据分类分级工作符合组织的分类分级原则和制度要求。
技术工具:
建立数据分类分级打标或数据资产管理工具,实现对数据资产的分类分级自动标识、标识结果发布、审核等功能。在技术层面需要建立数据管理平台,按照数据分类分级原则和制度要求对数据打标签,进行数据分类和分级区分,并依据此设置访问控制策略和加解密策略,还要能够对新增数据根据要求进行自动打标签处理。
人员能力:
负责该项工作的人员应了解数据分类分级的合规要求、能够识别哪些数据属于敏感数据。
在编制数据分类分级的制度时可以参考以下关键点:
下面给出我们在进行分类分级时制定的一个模板,欢迎提出更好的意见。
2.2 数据采集安全管理
官方描述为在采集外部客户、合作伙伴等相关方的数据的过程中,需明确采集数据的目的和用途,确保数据源的真实性、有效性和最少够用等原则要求,并规范数据采集的渠道、数据的格式以及相关的流程和方式,从而保证数据采集的合规性、正当性和执行上的一致性,符合相关法律法规要求。
数据采集过程中涉及包含个人信息及商业数据在内的海量数据,现今社会对于个人信息和商业秘密的保护提出了很高的要求,需要防止个人信息和商业数据滥用,采集过程需要信息主体授权,并应当依照法律、行政法规的规定和与用户的约定,处理相关数据;另外还应在满足相关法定的规则的前提下,在数据应用和数据安全保护见寻找适度的平衡。
DSMM标准在充分定义级要求如下:
组织建设:
成立组织机构的数据采集安全合规管理的实体/虚拟团队,负责制定相关的数据采集安全合规管理的制度规范,并推动相关要求、流程的落地。
设立组织机构的数据采集风险评估小组,对具体业务场景下的数据采集进行风险评估并制定改进方案,组织机构负责数据安全合规的团队提供对各业务团队风险评估小组工作的咨询和支持。
数据采集安全管理在组织机构设置方面包括两部分:数据采集安全合规管理团队和数据采集风险评估团队。这两个团队分别负责制定数据采集安全合规管理制度并落实和对数据采集阶段进行风险评估。
制度流程:
制定组织机构的数据采集原则,定义业务场景的数据采集流程和方法,明确数据采集的目的、方式和范围。
明确数据采集的渠道及外部数据源,并对外部数据源的合法性进行确认。
明确数据采集范围、数量和频度,确保不收集与提供服务无关的个人信息和重要数据。
组织机构内建立数据采集的风险评估流程,针对采集的数据源、制度、渠道、方式、数据范围和类型进行风险评估,对涉及采集个人信息和重要数据的业务场景进行进一步合规评估。
明确数据采集过程中个人信息和和或重要数据的知悉范围和安全控制措施,确保采集过程中的个人新和中友好数据不被泄露。
数据采集安全管理的制度规范需要包含三方面内容:一是明确数据采集的目的、用途、方式、范围、渠道等;二是建立数据采集的风险评估流程;三是明确数据采集过程中的个人信息和重要数据的安全控制措施。
技术工具:
在涉及数据采集的业务系统中建立统一、规范的数据采集流程,以保证组织机构数据采集流程实现的一致性,相关工具应具有详细的的日志记录,确保授权过程的有效记录。
采取技术手段保证数据采集过程中个人信息和重要数据不被泄露。
详细技术工具实现在后面落地重点关注中介绍。
人员能力:
负责该项工作的人员能够充分理解数据采集的法律要求、安全和业务需求,共能够根据组织机构内的业务场景提出针对性的解决方案。
以下是在数据采集安全管理阶段具体落地应该重点关注的内容:
法律要求
采集的数据及采集过程严格按照《网络安全法》、《个人信息安全规范》等相关国家法律法规和行业规范执行。
基本要求
a) 采集的数据信息,包括但不限于数据、文本、文件、图片、音频和视频等;
b) 采集数据的的传输方式,包括但不限于有线通讯传输、无线通讯传输和数字通讯传输等方式;
c) 数据采集者(信息系统服务方)应设置专人负责信息生产或提供者的数据审核和采集工作;
d) 数据采集者(信息系统服务方)应明确数据来源、采集方式、采集范围等内容,并记录存档;
e) 数据采集者(信息系统服务方)应制定标准的采集模板、数据采集方法、策略和规范,采集策略参数配置应包括采集周期、有效性、检测时间、入口地址和采集深度等;
f) 对于初次采集的数据,应采用人工与技术相结合的方式根据其来源、类型或重要程度进行分类;
g) 最小化采集数据,仅需要完成必须工作即可;
h) 对采集的数据进行合理化存储,依据数据的使用状态进行及时销毁处理。
采集方式
数据采集包括实时监测收集(系统运行数据、威胁数据等)和系统生产基础数据(人员信息、财务账单、采购供应商等)。可包括手工录入填报、权限获取、传感器收集、格式化的数据导入及数据ETL等。
采集周期
数据采集周期分为两种:
1) 对于实时监测数据,采集周期应按照实际工作条件下,系统连续进行10次采集,10次采集时间的平均值作为系统的数据采集周期;
2) 对于系统生产基础数据采用固定期限加动态调整。变化不大的数据信息采集周期为6个月,涉及数据信息变动的调整的可根据需要动态调整。
技术工具
1) 加密:在数据采集前端和采集传输路径安全方面,至少对秘密级以上数据采用加密措施,包括但不限于采集程序本身的加密(如DES、3DES)、传输过程加密(SSL)、网络层加密(VPN)、链路加密(专线)等方式;
2) 完整性:在数据采集前后采取校验码等技术对数据完整性进行校验,包括但不限于:数字签名、Hash算法校验、文件大小比对、人工复验等方式;
3) 匿名:对采集数据在采集和传输过程及存储过程中涉及展示的情景下,对数据进行脱敏和匿名模糊,包括但不限于数据信息替换、数据内容截取、模糊处理等方式;
4) 审计日志:数据从采集开始的整个过程,提供所有采集操作的日志记录,日志记录内容包括但不限于日期、时间、操作类型(动作)、主体(操作者)、客体(被操作对象)、状态等;
5) 断网自动保护:在进行采集的过程中,如遇网络中断,需将已采集的数据缓存在采集前端设备,保证15天内继续对数据进行采集且系统不丢失数据,待网络恢复后自动续传采集的数据。
风险评估
在对数据进行采集的过程中,应组织风险评估小组,对采集过程进行风险评估,评估内容包括但不限于:
a) 采集过程是否合规:是否有采集负责人进行审核等相关采集操作、采集的数据是否最小化、采集等;
b) 采集过程过程安全要求:是否采用了加密、完整性校验、匿名、日志和断网保护等措施;
c) 采集其他相关工作。
2.3 数据源鉴别及记录
官方定义为对产生的数据源进行身份鉴别和记录,防止数据仿冒和伪造。数据源鉴别是指对收集或产生数据的来源进行身份识别的一种安全机制,防止采集到其它不被认可的或非法数据源(如机器人信息注册等)产生的数据,避免采集到错误的或失真的数据;数据源记录是指对采集的数据需要进行数据来源的的标识,以便在必要时对数据源进行追踪和溯源。
DSMM标准在充分定义级要求如下:
组织建设:
组织机构具有负责数据源追溯的团队或人员,提供组织机构统一的数据源管理策略和方案。
在DSMM的要求中这个几乎都是一样的,每个过程域都需要指定专人和专岗负责该项工作,并能够胜任此工作,数据源鉴别及记录亦如是。在实际工作中,可能所有的过程域在这个维度上都是同样的一个或多个人,可以单独任命,也可以在相应的制度章节中进行说明。
制度流程:
制定数据源管理的制度规范,定义数据溯源策略、溯源数据表达方式和格式规范、溯源数据安全存储与适用的管理制度等,明确要求对核心业务流程的相关数据源进行鉴别和记录。
数据源管理制度规范需要包含两方面的内容:一是要对数据采集来源的管理,包括采集源识别和管理、采集源的安全认证机制、采集源安全管理要求等内容;二是对针对采集的数据在数据生命周期过程中进行数据溯源的管理,把数据流路径上的每次变化情况保留日志记录,保证结果的可追溯,以及数据的恢复、重播、审计和评估等功能。总结为“对来源认证,对变化溯源”
技术工具:
采取技术手段对外部收集的数据和数据源进行识别和记录,即通过数据溯源的机制,保证数据管理人员能够追踪与其加工和计算数据相关的数据源。
对关键溯源数据进行备份,并采取技术手段对溯源数据进行安全保护。
具体的技术手段措施在后面落地重点关注中介绍。
人员能力:
负责该项工作的人员应理解数据源鉴别鉴别标准和组织机构内部数据采集的业务场景,能够结合实际情况执行。
以下为在数据源鉴别和记录阶段实际落地应重点关注的内容:
1) 在进行数据采集时,需要专人或专门团队对数据源进行鉴别和溯源管理,提供数据源管理策略和方案。
2) 在进行数据采集时,需要对数据采集源进行识别和标识。可采取数据标签的形式,确保数据唯一性。
3) 在进行数据采集时,需要对数据采集源进行身份鉴别,防止数据源假冒和伪造。包括但不限于使用用户名/口令认证、指纹识别、人脸识别、动态口令卡、短信(语音)验证码、USB-Key等鉴别方式。
4) 在数据生命周期整个过程中,需要对采集的数据进行溯源管理,将数据每次操作前后的情况和状态进行日志记录和保存,以便对数据进行溯源。可采用源数据管理系统Apache Atlas、数据血缘管理工具Cloudera Navigator Data Management等。
5) 在对溯源数据进行传输和存储时,需要采取加密和完整性校验技术保证数据安全。包括但不限于SSL、VPN、MD5、RSA、RC4等。
6) 在溯源数据过程中,需要对关键溯源数据进行备份,并采取加密和完整性校验技术进行安全保护。
2.4 数据质量管理
官方描述为建立组织机构的数据质量管理体系,保证对数据采集过程中收集/产生的数据的准确性、一致性和完整性。
数据安全保护的对象是有价值的数据,而有价值的前提是数据质量要有保证,所以必须要有数据质量相关的管理体系。目的是保证对数据采集过程中收集和产生的数据的准确性、一致性和完整性。
DSMM标准在充分定义级要求如下:
组织建设:
组织机构设立数据质量管理岗位和人员,负责制定统一的数据质量管理规范,明确对数据质量进行管理和监控的责任部门或人员。
在DSMM的要求中这个几乎都是一样的,每个过程域都需要指定专人和专岗负责该项工作,并能够胜任此工作,数据质量管理亦如是。在实际工作中,可能所有的过程域在这个维度上都是同样的一个或多个人,可以单独任命,也可以在相应的制度章节中进行说明。
制度流程:
制定数据质量管理规范,包含数据格式要求、数据完整性要求、数据质量要求、数据源源质量评价标准,以及对异常事件处理的流程和操作规范。
建立数据采集过程中质量监控规则,明确数据数据质量监控范围及监控方式。
在数据质量管理制度中需要定义什么是“数据质量”,数据质量的属性一般包括一致性、完整性、准确性和失效性等;要明确数据质量的校验方法,比如校验的层次(人工比对、程序比对、统计分析等)和校验方法(时效性、完整性、原则性、逻辑性等);定义数据质量管理实施流程,比如在产品研制中植入数据质量控制手段、涉及需求、系统设计、开发、测试、发布与运维;制定数据采集质量管理规范,包含数据格式要求、数据数据完整性要求、数据质量要素、数据源质量评价标准等;
技术工具:
利用技术工具实现对关键数据进行数据质量管理和监控,实现异常数据及时告警或更正。
在进行数据质量管理方面需要的技术工具应包括以下内容:一是对数据资产进行分类和等级划分,这个在数据分类分级中已有更好的定义和介绍;二是对在线数据的质量监控,比如针对业务数据库实时产生的数据,这就要求需要对业务数据进行定义并对流程进行改造实现实时监控;三是离线数据质量监控,比如针对数据仓库或数据开发平台的离线数据;四是提供数据质量事件的处理流程,一旦发现数据质量异常及时进行告警和上报,积极采取纠正措施。
人员能力:
负责该项工作的人员对数据质量管理规范有一致性理解,能够基于组织机构的实际数据质量管理需求开展相关工作。
以下是在数据质量管理阶段实际落地中应该重点关注的内容:
1) 对数据质量进行管理要贯穿数据全生命生命周期。
2) 对数据质量进行管理时,需要设置专门的岗位和人员,负责制定数据质量管理规范及对数据质量进行管理和监控。
3) 对数据质量进行管理时,需要对数据完整性进行定义和监控。如人员信息要完整覆盖姓名、性别、年龄等,保证没有遗漏。
4) 对数据质量进行管理时,需要对数据规范性进行定义和监控。如日期信息都以yyyy-mm-dd格式存储,保证数据规范统一。
5) 对数据质量进行管理时,需要对数据一致性进行管理和监控。如同一个人的性别信息在从不同的数据库表中取过来应该是一致的。
6) 对数据质量进行管理时,需要对数据准确性进行定义和监控。如人员信息的年龄应该在0-120,超出此范围即为不合理不准确。
7) 对数据质量进行管理时,需要对数据唯一性进行管理和监控。如同一个ID应该没有重复记录,确保数据唯一不重复。
8) 对数据质量进行管理时,需要对数据关联性进行管理和监控。如两张数据库表建立的关联关系存在,不丢失数据。
9) 对采集数据进行管理时,应尽量避免用户自己输入,尽量提供选择,设定字典表。如人员性别设置男、女选择菜单等。
10) 对数据质量进行管理时,需要设置数据质量校验和监控方法。如人工比对、程序比对、统计分析等。
11) 对数据质量进行监控时,需要设置数据质量异常上报流程。如监控发现-上报-评估-更正-监控。
三、总结
虽然在文中,很多制度和技术工具是分开叙述,但是在实际工作中可能是混在一起的,同时很多具体实现的部分不仅仅只是应用在一个过程域或者一个生命周期阶段,甚至可以应用在整个生命周期过程中。比如要求对重要或敏感数据进行加密存储和传输,在生命周期各阶段都适用,可以一劳永逸。
以上就是DSMM对于数据生命周期第一阶段数据采集安全过程的要求以及我们在进行实际落地执行过程中的一点心得和体会,希望能够给有真正有DSMM需求的组织和人员带来一点儿启发,也希望对DSMM感兴趣的小伙伴一起来交流,并给出一些意见,共同将DSMM做的更好。
*本文作者:LJ_Monica,本文属 FreeBuf 原创奖励计划,未经许可禁止转载。