1 概述
随着《数据安全法》和《个人信息保护法》在2021年的相继出台并施行,整个社会对个人信息保护与数据安全的重视程度达到了前所未有的高度。好大夫在线收录了国内正规医院的88多万名医生信息(其中25万名医生实名注册),已向全国8000万患者提供了线上医疗服务,累积了大量的健康信息、病情描述和病历处方等医疗健康数据。持续为用户提供安全、稳定的医疗服务,保护医生和患者的数据安全,是好大夫在线对所有用户的承诺。数据分类分级是数据安全治理的一项基础性工作,是实现有效数据安全管理的底座。如何有效开展数据分类分级工作是互联网医疗企业需要直面的一道必答题,本文将好大夫开展数据分类分级工作的实践经验进行总结,希望对此领域感兴趣的同学能够起到一定借鉴作用。
1.1 数据分类分级价值
满足安全合规要求:《数据安全法》中明确提出建立数据分类分级保护制度,制定重要数据目录,加强对重要数据的保护。《个人信息保护法》中规定个人信息处理者应当对个人信息实行分类管理。各类行业监管相关要求也都对数据分类分级提出明确要求,开展数据分类分级工作已成为当前安全合规工作中的一项紧急任务,需要采用管理和技术手段落实数据分类分级工作。
降低业务安全风险:通过对数据的分类分级,识别出组织内重要敏感数据,掌握组织敏感数据资产分类、分级、分布情况及各类数据的使用场景,从而制定有效的防护措施,平衡数据流动创造价值与数据安全的矛盾,降低企业开展业务的安全风险。数据分类分级工作开展过程能够对数据资产实现精细化管控,通过监控审计策略,有效监控敏感数据的动态流向,使数据使用、数据共享行为“可见可控”。
满足自身业务需求:数据分类分级形成数据资产清单是数据治理的基础,梳理清楚数据资产、敏感数据类别、安全级别、账号权限等信息,能够帮助业务部门在涉及数据处理活动业务场景制定更为合理的策略,在提升业务运营能力为组织提供精准的数据服务,促使组织业务良性持续发展。
1.2 数据分类分级思路
经过一段时间的数据分类分级工作实践,我们复盘总结出了好大夫数据分类分级思路框架。该思路框架分别从管理制度、技术工具、运营流程3方面进行系统性建设,之后将数据分类分级工作成果应用于数据共享、数据使用等各类数据处理活动。
2 数据分类分级制度建设
数据分类分级制度建设是对数据分类分级工作机制的确认和划分规则的明确,如果是金融行业的企业这部分工作相对轻松,中国人民银行印发的《JRT 0197-2020金融数据安全 数据安全分级指南》中给出了金融行业典型数据类型及建议划分的最低安全级别,这种分类分级规则金融行业企业拿来直接使用即可,节省了分类分级规则制定和内部沟通解释的成本。医疗健康行业没有明确的数据分类分级行业标准和指南,我们可以参考《GB_T 39725-2020 信息安全技术 健康医疗数据安全指南》中的数据分类分级相关规则,再结合互联网企业自身特点和业务场景制定《数据安全分类分级制度》。制度中明确了数据分类、数据分级的规则和示例,以及数据在各类数据处理活动过程中的规范和要求。
2.1 数据分类
数据分类是根据组织数据的类型、特征、规模、属性,将其梳理、归类和细分,以便更好地管理和使用组织数据的过程。我司依据GB_T 39725-2020 《信息安全技术 健康医疗数据安全指南》,结合互联网医疗现有业务场景,将敏感数据字段分为个人属性数据、身份鉴权数据、健康相关数据、医疗应用数据、医疗支付数据和其他6类,具体参见表1《好大夫在线数据分类分级规则》。
2.2 数据分级
数据分类后组织要对数据进行定级,按照数据遭到破坏后对各类合法权益的危害程度,对数据进行定级,从而为组织数据数据全生命周期安全管理制定提供支撑的过程。我们参考了GB_T 39725-2020 《信息安全技术 健康医疗数据安全指南》,结合互联网医疗现有业务场景,将敏感数据字段分为4个级别,具体参见表1《好大夫在线数据分类分级规则》。
表 1 好大夫在线数据分类分级规则
3 数据分类分级工具建设
3.1 数据资产管理平台
数据资产管理平台我们是在数据库自动化管理平台基础上进行开发的,考虑到数据资产清单要与数据库表结构高度关联,同时结合好大夫SDL安全评估流程,需要关联到业务系统。主要功能包含数据分类分级清单、数据安全运营工单流程、第三方数据安全管理模块、敏感数据导出查看管理模块。
3.2 敏感数据识别工具
对结构化数据扫描识别敏感数据,我们使用了开源软件D18N,D18N是一款强大的数据脱敏和敏感数据识别工具,支持关键字匹配和正则匹配两种关系型数据库敏感数据识别算法。我们的数据资产管理平台与D18N工具做了集成,增加了创建控制扫描任务、扫描结果自动比对、扫描结果人工确认等功能。工具内部提供了敏感数据识别通用规则,我们结合互联网医疗业务场景参照模板对规则进行了自定义,完善了关键字匹配规则,通过正则表达式补充了病例资料URL类型数据识别规则,图1为D18N识别引擎部分自定义规则。
图 1 敏感数据检测工具规则
3.3 数据安全监控大盘
数据分类分级的结果呈现和数据使用情况监控需要一款强大的监控可视化平台,对数据资源清单敏感数据进行展示、数据分布情况、数据使用情况进行监控展示,好大夫技术团队使用了grafana(一款可视化监控指标展示工具),grafana提供了多种方式创建、共享、浏览数据。grafana支持多种数据源类型的对接,我们在做数据安全治理过程中对接了数据资产管理平台MySQL数据库、ClickHouse、Elasticsearch三个系统的数据源,可以获取需要展示和监控的各类动静态数据。图2为监控盘中数据分类分级情况部分,展示数据资产清单中有哪些敏感数据类型、敏感数据字段分布、数据分级情况,第三方使用敏感数据情况等。
图 2 数据安全监控大盘
4 数据分类分级流程建设
4.1 入库阶段数据分类分级
为了解决新增业务项目涉及敏感数据字段的识别标识问题,我们将数据分类分级与数据库建表工单打通集成,业务开发人员在申请MySql建表工单时要自评估新增表字段是否涉及敏感数据,如涉及需要在工单中对数据进行分类和分级打标,此工单会经过安全和DBA进行二次复核,无问题后会将结果同步到数据资产清单中。同时,安全人员结合敏感数据情况以及工单中项目编号对应的业务需求进行安全评估。
图 3 数据库建表过程数据分类分级流程
图4为数据库建表工单中数据分类分级样例:
图 4 数据库建表工单数据分类分级
4.2 存量数据的分类分级
对于存量数据和入库阶段遗漏的敏感数据要定期使用敏感数据识别工具执行检测任务,为了避免对线上数据库性能影响,我们扫描对象为线上备份数据库。检测工具会根据预定义好的敏感数据规则清单进行检测识别,检测出的结果对接到安全管理平台上与之前梳理好的敏感数据清单中敏感字段做比对,去掉重复字段,新增加的敏感字段由安全人员确认类别和级别同步到敏感数据清单中。因数据资产清单变更需要将清单配置同步至其他管理系统中,如:脱敏系统、加密系统。数据分级动态运营过程需要长期持续进行,优化流程调整规则,结果趋势是工具检测的敏感数据越来越少。
图 5 存量数据扫描分类分级流程
图6为存量数据扫描结果列表:
图 6 存量数据扫描结果
4.3 数据分类分级的其他流程
在数据安全治理工作中涉及数据分类分级的其他工作流程有很多,在上一篇《好大夫合作方数据安全闭环管理实践》文章中合作方接口对接的敏感数据字段(库-表-字段)需要与数据分类分级对接集成。数据分类分级理念和流程会渗透到各项数据处理活动中,需要不断完整,以下举几个常见的应用场景:
- 数据分类分级规则变更:由于监管环境变化、业务场景调整等因素,会涉及数据字段分类和级别的变更,这类变更可以由业务发起由安全人员审核确认,也可以由安全人员发起;
- 大数据敏感数据使用:通常4级数据字段不允许大数据集群处理,3级数据字段受限处理。大数据集群对于3级敏感数据明文处理需要进行授权审批,需要依据数据应用场景、数据属性进行综合评估;
- 敏感数据导出查看:日常业务运营遇到特殊情况和场景会涉及到4级敏感数据导出和查看,这种行为需要严格的授权审核,审核过程需要关注申请原因、数据量级。
5 数据分类分级结果呈现
5.1 数据资产清单
数据资产清单是数据分类分级工作的核心产出物,可帮助组织摸清数据资产家底。我司在数据安全管理平台中对数据字段进行打标,展示每个字段归属的分类、所属的安全级别。梳理的数据资产清单展示库、表、字段、所属系统、类型、级别、大数据消费情况、SQL查询是否脱敏等情况。
图 7 数据资产清单
5.2 数据资产分布图
数据资产分布图和数据安全监控大盘是数据安全治理的重要抓手,我司数据监控盘分为数据资产分布图、第三方数据使用监控盘和敏感数据使用监控盘。数据资产分布图包含敏感数据分布图和合作方消费数据分布图。图8为敏感数据分布图通过图能够展示敏感数据的静态分布,各个应用系统具体涉及到哪些敏感数据,敏感数据的库、表、字段及级别。
图 8 敏感数据分布图
图9为合作方数据分布图主要程序合作方消费使用好大夫敏感数据情况,图中具体展示了合作方、敏感字段、敏感数据级别情况,完整描绘敏感数据在业务合作场景中流转和分布。
图 9 合作方数据分布图
6 数据分类分级工作展望
6.1 医疗应用数据的识别
医疗应用数据类型十分复杂包含文字、图片、视频、语音等,结构化文本数据类型如病情描述信息、医患交流信息在组织内分布广泛,很难通过关键字和正则表达式有效地识别。利用图形识别和自然语言处理等技术应用于数据分类分级可能会是医疗健康行业数据分类分级的解决之道。
6.2 数据血缘关系的建立
目前数据分类分级地图为静态数据分布,没有展示数据流转路径和数据通过各子系统之间的关系。数据血缘关系能够展示数据字段的生命周期及逻辑关系,使安全人员更加深入了解数据如何使用消费、使用用户情况,进而更加精准设置访问控制权限、脱敏加密规则。
6.3 数据分类分级的应用
数据分类分级是数据安全治理工作的基础,完成数据分类分级在数据处理活动安全治理过程的应用更是任重道远,要结合业务场景持续开展落地数据分类分级成果和理念。数据分类分级需要与常见的数据安全技术(DLP、数据脱敏、数据加密、访问控制、监控审计等)合理结合使用才能掌握业务发展与安全风险控制的平衡点。
7 结束语
开展数据分类分级过程中积累了一些心得体会,组织内在开展数据分类分级工作前需要对业务发展方向、业务应用场景、数据使用场景充分调研,进而抽象出业务规则场景、数据资产特点,便于制定数据分类分级制度规则。数据分类分级工作流程要与现有数据工作流程相结合,落地实现方案需要与各业务部门、运维团队、大数据团队以共创的方式进行充分沟通。数据分类分级工作需要全员广泛参与,数据分类分级制度规则的大量宣贯工作尤为重要,引导大家学习制度、遵守规则、完善流程。最后感谢全体参与数据分类分级建设工作过程中各位同事,是你们筑起好大夫数据安全之盾。