AI in WAF | 腾讯云网站管家 WAF AI 引擎实践（下篇）

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

Web安全

^{0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
90
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9}

AI in WAF | 腾讯云网站管家 WAF AI 引擎实践（下篇）

腾讯云安全 2018-08-01 15:18:57 335781

本文由腾讯云安全创作，已纳入「FreeBuf原创奖励计划」，未授权禁止转载

导语：网站管家 WAF 基于 AI 技术，构建自学习、自进化及自适应机制的 Web 攻击检测方案，帮助企业安全团队真正实现自动化的、无人干预的 Web 安全运维，前路依然任重而道远。

在 AI in WAF 系列的上篇中，我们提到 AI 应用于 WAF 中存在诸多难以突破的技术问题，这包括行业面临的 Web 攻击样本稀少带来的 AI 检测模型建立困难、AI 算法在线 Web 攻击检测的处理性能等问题。因此，在 AI in WAF 实践中要实现两个关键突破：

第一、AI 算法应用层面的突破，解决 AI 模型应用于在线 Web 攻击检测的瓶颈问题；

第二、AI 算法模型层面上的创新，解决常规 AI 检测模型的弊端问题，同时最大化 AI 算法在 Web 攻击检测的优势。

那么，腾讯云网站管家 WAF 具体采用了哪些创新实践呢？

一、另辟蹊径，更智能更安全的 AI WAF

在解决算法应用的挑战上，腾讯云网站管家 WAF充分发挥了腾讯数据安全人才的技术创新、丰富的安全实践、多样化业务数据、AI 算法以及工程学上的积累沉淀，通过在各个环节的技术突破，成功将 AI 有效地应用到在线业务的威胁检测中：

数据收集：应用腾讯海量高质量正常业务数据样本及攻击数据样本；
数据清洗：应用先进的数据清洗方法，最小化样本干扰噪音影响；
特征化：应用特征提取技巧及专家知识干预，保障特征提取的精准度；
算法优化：领先 AI 算法，确保优秀的检出率及召回率表现；
工程集成： 使用工程学技巧，将各个环节有效结合，解决 AI 检查时间延迟问题。

在健壮的 AI 算法能力及引擎效能保障前提下，网站管家 WAF 在 Web 攻击检测模型的建立上，采用了更多大胆的创新尝试 ☟

自学习：异常检测+攻击识别两步走

低漏判低误判 AI 实践

在上篇，我们提到了行业普遍尝试的有监督学习及无监督学习 AI 检测算法模型存在的“漏判”及“误判”挑战。基于“正常的载荷是类似的，异常有各自的异常”及“攻击属于异常流量”的知识经验，腾讯云网站管家 WAF 创新地建立起了“异常检测+攻击识别两步走”的学习模型，并高效应用腾讯海量高质量的流量训练样本，确保 AI 引擎的学习效率及检测效果：

△ AI 模型建立知识经验

第一、无监督学习之异常检测 AI： 基于腾讯种类丰富的大量正常流量样本，采取无监督学习的 AI 模型，根据特定维度对流量做概率统计聚类，实时识别出正常流量，进而可以筛选异常流量。

第二、有监督学习之攻击识别 AI： 在已经筛选出来的异常流量的基础上，借助腾讯积累的大量 Web 攻击样本，采用有监督学习的 AI 模型，根据攻击行为标签，从异常流量中识别出攻击。

通过算法技巧和工程手段将异常检测和攻击识别进行紧密结合，建立起低漏判低误判检测的 AI 检测实践，是腾讯云网站管家解决 AI 技术应用于 WAF 的关键一步。

自进化：强大的 AI 学习及泛化能力

未知威胁与 0day 攻击检测保障

要实现对未知威胁与 0day 攻击的检测，WAF 一定是自我学习、自我进化的。

常规 WAF 依据经验规则检测攻击，而 AI WAF 通过学习流量构建动态模型检测攻击，这从检测机制上改变了 WAF 在应对未知及 0day 攻击的被动局面。

一方面，网站管家 WAF AI 引擎通过大量学习实际的业务流量及日常检测的攻击数据，持续更新进化攻击模型；

另一方面，应用先进的自研 AI 算法，持续提高 AI 算法的泛化能力，提升对新鲜样本的检出能力。

在实际应用测试中，网站管家 WAF 对新鲜样本的检测达到了超出行业标准的高检出率和召回率的表现，并在全球范围内达到了 WAF 行业领先厂商水平。

网站管家 WAF 自我进化的 Web 攻击检测能力，将逐步帮助企业安全运维人员化被动为主动，更加有效地应对未知及 0day 攻击威胁。

自适应：AI 特征学习及引擎训练

拥有符合自身业务特征的个性化 AI WAF

我们知道，每个用户的业务逻辑各不相同，表达方式各异，传统 WAF 对所有用户采用通用的威胁检测规则，难以帮助业务各异的用户有效防护攻击风险；且一旦面临基于业务适应的需求时，往往只能提供粗暴的“加黑”、“加白”的方式。

针对此问题，网站管家 WAF 创新地提供适用于单个用户的 AI 引擎学习接口，用户可以通过接口对 AI 引擎进行干预训练，并生成只适用于本用户业务的一对一的AI 威胁模型。也就是说，企业部署腾讯云网站管家 WAF 后，可以基于自身的业务数据及安全累积对引擎进行训练，在网站管家 WAF 整体的 AI 引擎基础之上，发展并拥有一个符合自身业务特征的个性化 AI WAF！

△网站管家 WAF AI 引擎特征学习界面

在实际落地 AI 引擎的开发中，网站管家 WAF 团队融合了更多的创新尝试及应用技巧，并在构建 WAF 自学习、自进化、自适应检测机制上不断研发，持续输出技术实践价值：

△ AI WAF 自学习、自进化、自适应技术实践价值

二、腾讯云网站管家 WAF AI 引擎检测效果

用 AI 技术探索 Web 攻击检测的新思路，那么，将 AI 技术应用到 WAF 实际效果到底如何呢？

首先，从载荷检测能力角度，AI 技术应用将有效解决传统 WAF 检测手段在面对混淆编码流量和未知流量样本检测的“漏判“，以及复杂业务场景下的“误判”问题：

△ WAF 技术载荷检测能力对比

规则引擎误判！！
In case ofbeing hacking, you should purchase the Tencent WAFservice when you has not been cracked down,then you can have agood sleep or else just be a chicken.

其次，在实际的实验数据测试对比中，腾讯云网站管家 WAF 也表现出远超行业水平的 WAF 威胁检测能力：

△ WAF 技术恶意样本检出率对比

说明：
1. 横坐标：从1000到29000是每1000次进行一次统计检测认为正常的样本数值；竖坐标：表示每个模型积累的检测认为是正常的统计。统计值越小，表明效果越好。
2. 恶意载荷样本数据来自互联网搜集，并大量选取了OWASP TOP 10攻击类型中，最典型也最常见的 SQLI,XSS 两种攻击类型数据，对各类引擎的检测能力对比：1-7674 SQL; 7675 - 17964 XSS; 17964 - 27663 SQL; 27664 - 29016 其他攻击；
3. 内部测试，由于测试样本、方法等影响，测试结果仅供参考。

Web 攻击检测技术发展与对比总结：