记录黑客技术中优秀的内容, 传播黑客文化,分享黑客技术精华

爬虫利器——火车采集器

阅读: 35还在自己写爬虫吗?省省力吧!今天介绍一款爬虫利器——火车采集器。它是一款互联网数据抓取、处理、分析和挖掘软件。可以灵活迅速地抓取网页上的信息,并通过内置处理功能,准确抓取出所需数据。项目背景:支持某项目对互联网提供的大量的具有特征信息的内容进行爬取,并对信息进行分析研究。收集提供了220左右个网站的网址,每个网址按照16个关键字进行信息检索和信息爬取。第一步那就是要爬取信息了,自己写爬虫?还是别了吧,有个工具叫火车采集器(原来叫火车头采集器)在这个前提下能满足我们需求了哦,下面就简单介绍下如何使用,方便后来的同学有类似需求提供一个解决问题的工具。文章目录火车采集器的采集流程1. 创建分组和任务 2. 设置采集源3. 设置采集地址4. 设置采集内容规则5. 发布内容设置6. 任务运行火车采集器的采集流
发布时间:2018-06-13 15:05 | 阅读:23250 | 评论:0 | 标签:安全分享 火车采集器 爬虫

如何用最小的代价完成爬虫需求

  一  缘起 在我工作的多家公司,有众多的领域,如房产,电商,广告等领域。尽管业务相差很大,但都涉及到爬虫领域。开发爬虫项目多了后,自然而然的会面对一个问题—— l 这些开发的爬虫项目有通用性吗? l 有没有可能花费较小的代价完成一个新的爬虫需求? l 在维护运营过程中,是否能够工具化,构建基于配置化的分布式爬虫应用? 这就是是我们今天要讨论的话题。 二  项目需求 立项之初,我们从使用的脚度试着提几个需求。 1. 分布式抓取 由于抓取量可能非常庞大,一台机器不足以处理百万以上的抓取任务,因此分布式爬虫应用是首当其冲要面对并解决的问题。 2. 模块化,轻量 我们将爬虫应用分成“应用层,服务层,业务处理层,调度层” 四个脚色。 3. 可管理,可监控 管理监控是一个体系,即配置可
发布时间:2017-04-02 17:45 | 阅读:69397 | 评论:0 | 标签:WEB安全 爬虫

安全牛课堂:TCPDUMP、HTTP协议基础、OWASP_ZAP新课上线 一元购!

TCPDUMP TcpDump可以将网络中传送的数据包完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来帮助你去掉无用的信息。 Linux作为网络服务器,特别是作为路由器和网关时,数据的采集和分析是不可少的。TcpDump是Linux中强大的网络数据采集分析工具之一。 用简单的话来定义tcpdump,就是:dump the traffic on a network,根据使用者的定义对网络上的数据包进行截获的包分析工具。 作为互联网上经典的的系统管理员必备工具,tcpdump以其强大的功能,灵活的截取策略,成为每个高级的系统管理员分析网络,排查问题等所必备的工具之一。 tcpdump提供了源代码,公开了接口,因此具备很强的可扩展性,对于网络维护和入侵者都
发布时间:2016-09-15 05:05 | 阅读:62043 | 评论:0 | 标签:活动集中营 OWASP_ZAP TCPDUMP 爬虫

PenQ:浏览器渗透测试套件

项目地址 http://www.qburst.com/products/PenQ 项目简介 PenQ是一个基于Linux版火狐打造的渗透测试浏览器套装,它配备爬虫,先进的网络搜索,指纹识别,匿名浏览,Web服务器扫描,生成报告等功能。 为什么要用PenQ? 网站的安全对一个中小型的商务网站的重要性是不言而喻的,但是又是很容易被中小型企业忽视。因为中小型企业缺乏足够的资金来购买专业的测试工具,也缺乏人力来专门来维护网站的安全。这时PenQ就是您的首选啦——因为它是免!费!的!╮( ̄▽ ̄)╭PenQ整合了专业的资源链接、安全指导手册和测试工具,所以,就算你是小白,也能很快地上手,并且将它用于对你网站漏洞的测试。 PenQ有什么优点? PenQ 让安全测试人员利用浏览器来流程化地测试你的网站漏洞,经过流程化的测试

你不得不知的几款漏洞扫描器

漏洞扫描是指对暴露在外部或内部托管系统、网络组件或应用程序进行漏洞检测。漏洞扫描器是正是用来执行漏洞扫描的工具。 其是以漏洞数据库为基础,对远程主机进行检查。该漏洞数据库包含所有需要的信息(服务,端口,数据包类型,漏洞利用程序等)。他们可以扫描数以千计的网络和网站漏洞,提供风险问题清单,并给出修复建议。 漏洞扫描器可以用来做: 安全审计师的安全评估 黑客的对资产的恶意攻击或者未授权访问。 应用上线前测试 目前流行的漏扫的特点是: 漏洞数据库不断更新 减少误报 同时扫描多个目标 提供详细的结果报告 漏洞的修复建议 结构图 扫描器的组成 漏洞扫描器分为四个部分: 用户界面:这是与用户进行交互,运行或配置扫描的接口。这可以是一个图形用户界面(GUI)或命令行界面(CLI)。 扫描引擎:扫描引擎基于该安装和配
发布时间:2016-08-16 05:35 | 阅读:440899 | 评论:0 | 标签:Web安全 Acunetix Web Vulnerability Scanner burpsuite Nessus Ne

简易爬虫搜索引擎 – JSearchEngine

目前只实现了指定站点的收录和爬寻,只做了页面标题的收录,只实现了结果单一关键词搜索。使用方法python JSearchEngine.py newwork www.freebuf.com  #创建一个爬寻任务,站点为www.freebuf.compython JSearchEngine.py work   #继续一个爬寻任务,站点为www.freebuf.compython JSearchEngine.py search www.freebuf.com 入侵     #搜索一个爬寻结果,站点为www.freebuf.com,关键词为“入侵”#!/usr/bi
发布时间:2014-03-05 11:10 | 阅读:86011 | 评论:0 | 标签:工具 JSearchEngine 爬虫

撸友福音:DIY简单功能的torrentkitty种子爬虫

过完年回公司比较无聊,一不小心看到微博里美尤莉娅的图片,惊为天人,有图为证!!!百度之原来这货以前叫小泉彩,貌似动了几个小手术换了个马甲重新出道了。你拍AV你家里知道么?。于是乎下了几个种子看了下,感觉还行(像苍老师什么的我真的没有看过哈哈),狠一点把全集全搞到百度网盘上。貌似这货拍了200多部,真不少。人工学习了下,torrentkitty的种子貌似还是蛮全的。搜一下关键字11页,接近200+个结果,这一个一个ctrl+c  ctrl+v这不得直接导致键盘+鼠标手。祭出FIREBUG+PYTHON,写个爬虫把地址全部搞出来。因为目的比较单纯和纯洁,所以就不用SCRAPY这么大型的东西了。效率第一。FIREBUG看了下结构,目标的XPATH在/html/body/div[4]/div/
发布时间:2014-02-11 12:30 | 阅读:224593 | 评论:0 | 标签:WEB安全 torrentkitty 爬虫

Paros的web爬虫

Paros的web爬虫 嗯。效果还不错,Gui界面~ weibo Dis9Team 下载&安装&使用 /tmp# wget http://dis9-server.googlecode.com/files/paros-3.2.13-unix.zip /tmp# unzip paros-3.2.13-unix.zip /tmp# cd /pen/web/paros/ /pen/web/paros# java -jar paros.jar /启动它 设置下浏览器代理: 右键Choice爬虫: 声明: 本文采用 CC BY-NC-SA 3.0 协议进行授权转载请注明来源:Panni Security Team本文链接地址:[sourcelinkurl]
发布时间:2013-04-27 16:20 | 阅读:38470 | 评论:0 | 标签:黑客攻防 paross web 爬虫

公告

关注公众号hackdig,学习最新黑客技术

推广

工具

标签云