记录黑客技术中优秀的内容, 传播黑客文化,分享黑客技术精华

DefPloreX:趋势科技开源了一款基于机器学习的电子犯罪取证工具包

2017-08-01 06:50

整个安全行业都喜欢收集数据,研究人员也不例外,收集到的数据越多,越有信息更透彻的对威胁进行分析。然而,从高度非结构化的数据中提取有意义的和有用的信息并不容易,大量的数据势必需要更多的处理资源。很多时候,对于安全专业人员(如调查人员、渗透测试人员、逆向工程师和分析人员),手动的进行数据分析是唯一的选择,通常需要通过冗长重复的操作来处理这些海量的数据。

好消息是,我们已经创建了一个基于开源库的灵活的工具包,不仅能有效地分析数以百万计的被污损的网页,也可以用于处理一般攻击造成的Web页面恶意植入。我们将其命名为DefPloreX(DefecedPlore X,“污损探索者”)。DefPloreX工具包结合了机器学习和可视化技术,能够把非结构化的数据转换成高级别的有意义的描述。在安全事件发生的过程中,实时的将入侵、攻击和漏洞等信息有效的处理成可供浏览的对象,尤其适合大规模的高效的网络犯罪取证和调查。

DefPloreX的输入是存储数据或电子表格的文本文件(如 CVS 文件),存储的信息通常包含正在分析的Web事件的元数据记录(如 URLs等),通过无界面浏览器探索相关资源,从被破坏的页面中提取特征,将结果存储成Elastic中的index 。分布式的无界面浏览器和大规模的数据处理的任务通过Celery进行协同调度(Celery是分布式任务调度利器),另外,还采用了多个基于Python语言开发的数据分析工具。值得一提的是,DefPloreX还支持创建数据的离线“视图”,便于用户进行深入地分析。

DefPloreX最有趣的特征是加入了机器学习的效能,它能够对被破坏的网页进行自动的聚类分组,将分散的、单个的Web事件组织成攻击活动,完成这些工作只需要一次数据传递。DefPloreX使用的聚类分析技术本质上是可以并行的,不受存储器的限制。支持命令行和Web界面两种方式,上手容易,可以使用简单的语言进行调查和取证工作,而且由于DefPloreX是基于Elastic Search的,故而可以很容易的与其他系统集成。

DefPloreX的整体架构图如下所示:

图1:DefPloreX的功能概述

DefPloreX能够从每个检索的Web页面中收集到两类信息:页面的静态视图(如脚本、文本、非解释型资源)和动态视图(如使用DOM方法动态加载的资源)。完整版本的DefPloreX可以提取 URLs、Email信息、社交网络昵称、标签、图片、文件的原数据、概述文本等信息,充分的提取受破坏页面的特征。

图2:从URLs中收集到的信息

从数据挖掘的角度,探讨一组污损网页的关联性问题,典型的场景包括黑客行动主义者们发起的网络攻击活动。假设这些受损页面中有重复的或相似的特性,我们可以捕捉并使用它们作为聚类特性。例如,同一个攻击者大多会在同一个攻击活动中重用相同的Web片段(也可能会存在微小的变化),从URLs指向的页面中获得静态和动态视图的相关信息,并提取数值和分类特征,就有能力分析出攻击活动的特征。

图3: 从每个URL中获得的特征

DefPloreX 还有一个名为“data bucketing”(数据桶) 的功能,可以用来推导出每条记录的紧凑/简化的表示形式,进而实现快速聚类。

可视化展示效果如下图所示:

图4、图5:可视化展示效果(示例)

在7月27日的BlackHat大会上,发布了遵循FreeBSD协议的DefPloreX 版本(包含了部分功能),抢先体验,请点击下边的GitHub链接:

https://github.com/trendmicro/defplorex

知识来源: www.mottoin.com/104456.html

阅读:111596 | 评论:0 | 标签:工具

想收藏或者和大家分享这篇好文章→复制链接地址

“DefPloreX:趋势科技开源了一款基于机器学习的电子犯罪取证工具包”共有0条留言

发表评论

姓名:

邮箱:

网址:

验证码:

公告

九层之台,起于累土;黑客之术,始于阅读

推广

工具

标签云