记录黑客技术中优秀的内容,传播黑客文化,分享黑客技术精华

Big Data Analytics in Cyber Security: Network Traffic and Attack

2020-09-05 13:50

笔记作者:soloccc
原文作者:Lidong Wang & Randy Jones
原文标题:Big Data Analytics in Cyber Security: Network Traffic and Attacks
原文来源:Journal of Computer Information Systems
原文链接:https://www.tandfonline.com/doi/full/10.1080/08874417.2019.1688731

0-引言


如今应用大数据研究网络攻击入侵检测问题时,往往会遇到数据处理过程中高效性与准确性的挑战。本文主要研究了网络流量和入侵攻击中的数据量、准确性与各种大数据特征。采用的数据集有KDD-Cup 1999,MAWILab与KDD-Cup 1999中的Masquerading User Data。本研究讨论了重复数据,缺失数据与用户伪装数据几种情况,并对变量进行了相关性分析。实验研究表明,在采用R语言进行重复数据相应处理后,可以显著提高数据分析的准确性。本研究也发现,在所用数据集中各个变量之间相互关系较弱。本研究有助于将来改善流数据的在线分析与实时分析,使深度学习更加适应流数据。

1 介绍


入侵攻击,日志记录与网络流量通常是一些大数据事件。在实际环境中,往往收集到的数据质量较低,表现在数据的冗余性、完整性、一致性和准确性上。这些有缺陷的数据集缺乏准确性,会混淆数据发挖掘过程,导致在后期机器学习过程中出现过拟合。冗余数据会导致数据不平衡。在基于树的实施入侵检测技术研究中,已经发现高程度的数据不平衡会导致分类器准确率的降低。另外,重复数据会影响模型性能。在监督学习过程中,往往事先需要一个没有数据丢失的数据集进行训练。如果对于丢失数据处理不当,会带来效率低下与错误结果等问题。正确处理缺失数据是提高系统鲁棒性和效率的必要条件。 处理缺失数据的思路有两种:插补与删除。插补的思路是使用数据集之间数据的可能关系进行插值。传统插补方法包括K临近插补KNNI,线性回归插补与神经网络插补。近年来还提出了基于红隼鸟行为的生物启发方法与基于规则的距离函数插补。删除则直接丢弃缺失数据。删除方法直接丢弃缺失性数据。现有的方法对于大数据环境下的缺失值还没有较好的效果。实时流量分析通常是动态的,也会有异构情况,如何处理流量大数据的数量,准确性与多样性是很重要的。本文针对网络流量中的数据量)、准确性以及各种大数据特征进行了深入讨论。

本研究采用的数据集包括KDD-Cup 1999,MAWILab与KDD-Cup 1999中的Masquerading User Data。KDD-Cup 1999是麻省理工学院林肯实验室的网络系统和技术组(原DARPA入侵检测评估组)在国防高级研究计划局(DARPA)和空军研究实验室(AFRL)的赞助下,收集并分发了一个数据集,用于评估计算机网络入侵检测系统。由于没有更好的公开可用的替代方案,它仍然常用于数据挖掘/机器学习中的网络入侵分析。

1.'KDD Cup 1999' :数字数据和符号数据,如状态或标志数据。2.'MAWILab' :许多缺失值;各种数据类型,如数值数据、分类数据、ID和IP地址。3.'Masquerading User Data' :许多命令,其本身是一个包含二进制数据的ASCII文件。


2 网络流量与副本分析


分析网络流量和副本目的是寻求数据缩减的方法。数据缩减可以通过删除冗余变量、聚类、消除重复实例等来实现。数据缩减有助于提高机器学习的准确性与效率 。研究中所提及的方法是主成分分析PCA,它用于数据集的降维和高维数据集变量的特征提取,特别适用于具有冗余变量的数据集。

2.1 变量相关性分析

表1描述了KDD Cup 1999”中的三个数据集。

数据集中变量x和y之间的皮尔逊相关系数r如下计算:

其中:


n是包含变量的数据集样本大小。

表2中是从数据集kddcup.data中选择的中的部分变量。

它们是与可能的攻击相关的重要变量,并包含数值数据和分类数据。数据集中共有42个变量,包括41个特征变量和1个标签变量(表示正常数据或攻击性数据)。本文对与至少一次攻击有显著关联的8个变量(V1、V5、V6、V9、V11、V16和V17)进行了相关分析。皮尔逊相关系数r计算结果如表3。8个变量中,V9和V11的系数r最大(0.142);V5和V6的系数r绝对值最小(−1.5968e-6);任何两个变量的相关系数都很小,说明所有变量的相互关系都很弱。结果表明这些变量之间存在弱相关性,也就是说对数据集进行降维缩减数据的空间十分有限,因此本文并未进行PCA处理。

2.2 聚类分析

k-means算法是一种聚类分析方法,输入参数k,将一组数据集项划分为k个簇。通过迭代划分,直到其标准函数收敛。图1是数据集变量v23和v24的聚类分析结果,展示了五个聚类。


2.3 重复数据的统计分析

表4和表5则展示了'KDD Cup 1999'内两个不同数据集在删除冗余数据前后的统计信息。由图可知,删除冗余数据后,总数据分别减少了70.53%和78.05%,攻击数据和正常数据也分别有显著的减少,从而能够进一步提升之后机器学习的效率。

表6展示了数据集中四种不同攻击(拒绝服务DoS、远程到本地R2L、用户到根U2R和探测)在删除重复数据前后的统计结果。由表可知,DoS攻击占了很大一部分比例,即使删除了重复项以后,仍然占攻击总数的94.31%。

表7是数据集变量v2(协议类型)的分析结果。在去除重复项后,数据集中的icmp协议数量大大减少,而udp协议重复项是最少的。 

3 缺失数据分析


丢失数据会大大影响数据分析的准确性。本文完成了'MAWILab'数据集中缺失值和缺失数据模式的检测。'MAWILab'用四个不同的标签对MAWI档案中的流量异常进行了注释:正常、可疑、值得注意和良性。在数据集中,有各种各样的数据,如数值数据、分类数据、IP地址和ID数据,它们都有许多缺失数据。数据集丢失的数据模式由表8所示。表中第一列显示每个缺失值模式中的实例数,最后一列给出每个模式中存在缺失数据的变量数。最后一行表示每个变量上缺少的值的总数。

4 伪装分析


伪装攻击通常表现为欺骗,入侵者冒充他人并使用他人的身份,例如伪造他们的电子邮件地址或窃取他们的密码。如果伪装者成功模仿了合法用户的行为,那么他就不会被检测到。本文对数据集'Masquerading User Data'进行了分析。它包括了50个文件,每个文件对应一个用户。文件每一行都是一个命令,每个文件包含15000个命令,而每个用户前5000个命令不存在任何伪装,可作为训练数据。剩下的10000个命令被划分为100个数据块。表9给出了50个数据块中是伪装块的数目。

5 总结


本文根据对三类不同数据集进行了变量相关分析、聚类分析、重复消除、缺失值和缺失数据模式检测、用户伪装统计分析,为海量流量监测的“量”、“准”、“多”三个方面提供了一定的研究支持,将来有助于实时流量分析与攻击检测的深度学习。

安全学术圈招募队友-ing, 有兴趣加入学术圈的请联系secdr#qq.com


知识来源: https://mp.weixin.qq.com/s?__biz=MzU5MTM5MTQ2MA==&mid=2247485177&idx=1&sn=f00148470d4ea4c23744f582cf790d2c&chksm=fe2ef972c9597064f8f42321a7c50a01a2dfdb01c476574da316293620edb7f45ee617e6bf43&scene=27&k

阅读:27072 | 评论:0 | 标签:无

想收藏或者和大家分享这篇好文章→复制链接地址

“Big Data Analytics in Cyber Security: Network Traffic and Attack”共有0条留言

发表评论

姓名:

邮箱:

网址:

验证码:

公告

❤人人都能成为掌握黑客技术的英雄⛄️

ADS

标签云

本页关键词