根据机器学习的web反常检测

Web防火墙是信息安全的第一道防地。跟着网络技能的快速更新，新的黑客技能也层出不穷，为传统规矩防火墙带来了应战。传统web侵略检测技能经过保护规矩集对侵略拜访进行阻拦。一方面，硬规矩在灵敏的黑客面前，很简单被绕过，且根据以往常识的规矩集难以应对0day进犯；另一方面，攻防对立水涨船高，防卫方规矩的结构和保护门槛高、本钱大。
根据机器学习技能的新一代web侵略检测技能有望补偿传统规矩集办法的缺少，为web对立的防卫端带来新的开展和打破。机器学习办法能够根据很多数据进行自动化学习和练习，已经在图画、语音、自然语言处理等方面广泛应用。但是，机器学习应用于web侵略检测也存在应战，其间最大的困难便是标签数据的缺少。虽然有很多的正常拜访流量数据，但web侵略样本稀疏，且改变多样，对模型的学习和练习形成困难。因而，现在大多数web侵略检测都是根据无监督的办法，针对很多正常日志树立模型(Profile)，而与正常流量不符的则被辨认为反常。这个思路与阻拦规矩的结构恰恰相反。阻拦规矩意在辨认侵略行为，因而需求在对立中“见机行事”；而根据profile的办法旨在建模正常流量，在对立中“以不变应万变”，且更难被绕过。

根据反常检测的web侵略辨认，练习阶段一般需求针对每个url，根据很多正常样本，笼统出能够描述样本集的核算学或机器学习模型(Profile)。检测阶段，经过判别web拜访是否与Profile相符，来辨认反常。

关于Profile的树立，主要有以下几种思路：
1. 根据核算学习模型
根据核算学习的web反常检测，一般需求对正常流量进行数值化的特征提取和剖析。特征例如，URL参数个数、参数值长度的均值和方差、参数字符散布、URL的拜访频率等等。接着，经过对很多样本进行特征散布核算，树立数学模型，从而经过核算学办法进行反常检测。
2. 根据文本剖析的机器学习模型
Web反常检测归根到底仍是根据日志文本的剖析，因而能够学习NLP中的一些办法思路，进行文本剖析建模。这其间，比较成功的是根据隐马尔科夫模型(HMM)的参数值反常检测。
3. 根据单分类模型
因为web侵略黑样本稀疏，传统监督学习办法难以练习。根据白样本的反常检测，能够经过非监督或单分类模型进行样本学习，结构能够充沛表达白样本的最小模型作为Profile，完成反常检测。
4. 根据聚类模型
一般正常流量是很多重复性存在的，而侵略行为则极为稀疏。因而，经过web拜访的聚类剖析，能够辨认很多正常行为之外，小搓的反常行为，进行侵略发现。

根据核算学习模型
根据核算学习模型的办法，首要要对数据树立特搜集，然后对每个特征进行核算建模。关于测验样本，首要核算每个特征的反常程度，再经过模型对反常值进行交融打分，作为终究反常检测判别根据。
这儿以斯坦福大学CS259D: Data Mining for CyberSecurity课程[1]为例，介绍一些卓有成效的特征和反常检测办法。
特征1：参数值value长度
模型：长度值散布，均值μ，方差σ2，使用切比雪夫不等式核算反常值p

特征2：字符散布
模型：对字符散布树立模型，经过卡方查验核算反常值p

特征3：参数缺失
模型：树立参数表，经过查表检测参数过错或缺失
特征4：参数次序
模型：参数次序有向图，判别是否有违规次序联系

特征5：拜访频率（单ip的拜访频率，总拜访频率）
模型：时段内拜访频率散布，均值μ，方差σ2，使用切比雪夫不等式核算反常值p
特征6：拜访时刻距离
模型：距离时刻散布，经过卡方查验核算反常值p
终究，经过反常打分模型将多个特征反常值交融，得到终究反常打分：

根据文本剖析的机器学习模型
URL参数输入的背面，是后台代码的解析，一般来说，每个参数的取值都有一个规模，其答应的输入也具有必定形式。比方下面这个比如：

比如中，绿色的代表正常流量，赤色的代表反常流量。因为反常流量和正常流量在参数、取值长度、字符散布上都很类似，根据上述特征核算的方法难以辨认。进一步看，正常流量虽然每个都不相同，但有一起的形式，而反常流量并不契合。在这个比如中，契合取值的样本形式为：数字_字母_数字，咱们能够用一个状态机来表达合法的取值规模：

[1] [2] [3] 黑客接单网

发表于 2021-04-15 21:39
阅读 ( 263 )
分类：互联网

根据机器学习的web反常检测

0 条评论

你可能感兴趣的文章

相关问题