数据安全唠唠嗑 | 融合规则引擎与大模型引擎的创新实践

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

数据安全

^{0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
90
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9}

^{0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9}

数据安全唠唠嗑 | 融合规则引擎与大模型引擎的创新实践

观安信息 2024-07-11 11:01:25 288583

本文由观安信息创作，已纳入「FreeBuf原创奖励计划」，未授权禁止转载

在数字化转型的大背景下，企业需要处理的数据量呈指数级增长。如何快速高效从海量数据中挖掘出有价值的信息，并进行有效而精准的安全防护，成为企业面临的重大挑战。传统的数据处理方式已无法满足当前的需求。使用全新的数据分类分级智能体应运而生，我们将探讨如何通过融合规则引擎和大模型引擎，构建高效、自动化且智能的数据分类分级系统，旨在提升数据分类分级的精准度与效率，确保数据资产的安全与合规。

数据分类分级是指根据数据的敏感性、价值、法律要求等因素，将数据划分为不同的类别和级别，以便采取相应的安全措施和管理策略。然而，面对海量、复杂且动态变化的数据环境，传统的手工分类方法已难以满足需求，自动化、智能化的数据分类分级解决方案呼之欲出。

数据分类分级智能体设计与实现

1.数据预处理：需要对原始数据进行清洗和预处理，包括去除无效数据、填充缺失值、转换数据格式等。

2.特征工程：需要从预处理后的数据中提取有用的特征，作为数据分类分级的依据。

3.模型训练：使用大模型引擎对提取的特征进行学习，得到数据分类分级的模型。

4.规则设定：根据业务需求，设定数据分类分级的规则，由规则引擎执行。

5.结果融合：将大模型引擎的预测结果和规则引擎的决策结果进行融合，得到最终的数据分类分级结果。

通过训练大规模数据集，大模型能够学习到复杂的数据特征和上下文关系，从而识别出传统规则难以捕捉的细微差别和潜在模式。在数据分类分级中，大模型引擎能够辅助或优化规则引擎的决策，提升数据分类分级的精准度和灵活性。

非结构化数据如文本文件、图像、视频、音频等已经占据了企业数据仓库的绝大部分。这些海量数据丰富多样，给数据管理带来了巨大挑战。为了有效利用这些数据，保护敏感信息，并满足合规性要求，对非结构化数据进行分类分级显得尤为重要。为了提高分类分级的效率和准确性，利用人工智能、自然语言处理、机器学习等技术，能够自动识别非结构化数据的内容，并根据预设的分类标准进行分类。自动化分类结果存在一定的误差，还需要进行人工审核和校验。

对非结构化数据进行分类分级是一个复杂而重要的工作。通过明确分类分级的目的和原则、制定统一的分类标准、引入自动化分类工具、进行大模型推理和人工审核与调整、建立元数据管理系统、制定安全措施以及培训与宣传等措施的实施，可以有效地提高数据管理的效率和质量，降低安全风险并满足合规性要求。

分类分级是一个动态的过程，需要随着业务的发展和技术的进步不断调整和优化。应定期回顾分类分级的效果和存在的问题，及时调整分类标准和安全措施；还应关注新技术的发展和应用，不断引入新的工具和方法来提高分类分级的效率和准确性。

数据分类分级智能体规则引擎与大模型引擎的融合

规则引擎：规则引擎是基于业务逻辑的决策支持系统，可根据预设的规则对数据进行分类和分级。规则引擎的优势在于其可解释性和灵活性，能够快速响应业务需求的变化。

数据分类不应从数据特征去推断分类，而应从分类去挖掘数据特征集。通过发现三大引擎，多维度指标判定引擎识别数据特征，通过向量化分类推测类型判定，再通过用户决策自动反馈机制，提升发现和识别的精准度。

大模型引擎：大模型引擎是基于深度学习的预测模型，可以从大量数据中自动提取特征，实现数据的自动分类和分级。大模型引擎的优势在于其强大的学习能力和泛化能力，能够处理复杂的数据模式。

利用RAG等技术为大模型引入外部专业知识代替重新训练和微调，开发设计智能体（agent），采用长短期记忆、反思、工具等技术手段，完成业务功能的实现。

融合策略：规则引擎和大模型引擎的融合，可以结合两者的优点，实现更高效、更精准的数据分类分级。具体而言，规则引擎可以用于处理简单、明确的业务规则，而大模型引擎则可以用于处理复杂、模糊的数据模式。

自动化分类与数据标签生成:AI大模型可以结合数据字典、建表语句的注释、库表的样例数据学习和理解库表中不同数据的上下文和内容，自动对数据进行分类和分级。这基于大模型对自然语言理解的能力与推理能力，例如，它可以识别出个人信息、财务记录或健康数据等敏感类别，然后按照数据分类分级标准和规则相应地打上不同的安全标签。这样可以确保高敏感度数据得到更严格的安全控制和管理。

其中敏感数据的识别率提升的原因：

1、利用大模型百亿级别参数及海量行业知识，构建了数据分类分级AI智能体，能对业务进行关联推理，不论有积累的老行业，还是没积累的新行业，都有不错的初始准确率。

2、大模型引擎结果和基于规则引擎的结果进行智能融合，互为补充，进一步提升初始准确率。（基于规则引擎的优先级高于大模型引擎）

3、初始准确率平均10%~20%不限行业，初始准确率平均60% 提升3倍以上。

数据分类分级智能体大模型应用的效果

大模型的分类分级理解能力

大模型对移动业务的手机号，基站、设备IMEI等都有很好的理解对flux，dura，cnt等简写都能很好的根据上下文还原成原来的语义。大模型还解释了为什么这个表的类别是：【服务记录和日志】大模型的解释分类原因的原文：

该表包括呼叫者号码、呼叫者位置、通信开始时间、持续时间、数据使用量等信息。这些列提供了终端用户使用服务的信息，因此，该表最适合的类别是“服务记录和日志”。我对这个表属于这个类别的自信程度为10分中的8分。

大模型的分类分级结果

大模型分类分级结果内测统计

内部小规模的效果验证，数据的类别以人工审核为准，大模型的结果与人工审核结果比较计算准确率，大模型达到了较高的准确率。规则引擎与大模型引擎的融合后，数据分类分级交付效率提升30倍以上。

数据分类分级智能体通过融合规则引擎和大模型引擎，实现了数据处理的自动化、智能化，大大提高了数据处理的效率和准确性。未来，随着技术的发展，数据分类分级智能体的应用场景将更加广泛，为企业创造更大的价值。融合规则引擎与大模型引擎的数据分类分级智能体，是应对大数据时代数据复杂性和动态变化性的有效手段。不仅能够提升数据分类的精准度和效率，还能在保障数据安全与合规性的基础上，促进数据的深度挖掘和有效利用。随着技术的不断进步和应用的深入拓展，数据分类分级智能体将在更多领域发挥重要作用，为企业数字化转型提供有力支撑。

数字安全智能体未来与展望

全新一代AI驱动智能可扩展安全架构（大模型+智能体+数据安全架构）可简便进行多交互场景是未来发展的方向。安全大模型，拥有并合理使用一个就够了。基于MOE（混合专家模型）架构的大模型安全大脑，一个足以适应各类安全场景。而N个大模型，功能单一，部署成本高，算力成本高，运维成本高。

安全专业能力的提升是安全智能体未来能够在行业长驱直入的根本因素。数字安全已经从卖单品盒子的产品主义阶段，进化到了当前以能看见处置风险预警为核心的能力主义阶段，未来还将发展到利用人工智能技术赋能安全工具，颠覆传统运营模式的智能主义阶段。在智能主义阶段，最大的痛点就是在水准线以上的安全运营专家的不足。大模型的出现为解决这些问题开辟了新途径，也为数字安全带来了新范式，即智能主义——安全工具和安全智能体（融合规则引擎和大模型引擎）。

现阶段由于模型训练应用效果仍有很大的提升空间，所以基于规则引擎的优先级高于大模型引擎，当大模型的安全能力泛化到一定程度后，规则引擎只适用特定场景时，自动化的智能体将可以大展拳脚，数字安全则可以全面进入智能时代。安全智能体将逐渐替代人类，使用各种安全工具，完成越来越复杂的任务。这将是整个行业努力和发展的方向。

# 数据安全 # 数据分类分级

观安信息

已在FreeBuf发表 58 篇文章

本文为观安信息独立观点，未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件，请联系 FreeBuf 客服小蜜蜂（微信：freebee1024）

被以下专辑收录，发现更多精彩内容

+ 收入我的专辑

+ 加入我的收藏

展开更多