神兵利器

搜索引擎爬虫工具

字号+ 作者:farmsec 来源:转载 2018-08-28 09:14 我要评论( )

1.Introduction: EngineCrawler 主要用于在linux系统上,抓取国内外主流搜索引擎搜索返回的url内容,相比之下,windows的搜索引擎爬虫工具就非常多,但我本机是kal......

1.Introduction:
EngineCrawler 主要用于在linux系统上,抓取国内外主流搜索引擎搜索返回的url内容,相比之下,windows的搜索引擎爬虫工具就非常多,但我本机是kali,用不了windows软件,只好自己简单写一个小工具啦,写这个小工具的原因是自己在给厂商做测试的时候,发现了一个web应用程序的通用型漏洞,现在需要根据url的特征值来采集大量的url,然后批量进行测试,手动复制粘贴url各种累,这时候这个小工具就能够派上大用场啦~
 
工具使用多进程并发用于提高网页抓取的效率,可以自定义模块添加到工具中,目前支持以下的搜索引擎: baidu,google,yahoo,ecosia,teoma,360,hotbot,支持直接使用百度或者谷歌的高级搜索语法来进行搜索,谷歌搜索引擎不需要翻墙,抓取的数据是我自己搭建的谷歌镜像站......
 
2.Dependencies:
pip -r install requirements.txt
 
3.Usage:
OPTIONS:
  -h, --help            show this help message and exit
  -r RULE, --rule RULE  Engine advanced search rules
  -p PAGE, --page PAGE  The number of pages returned by the search engine
  -e ENGINES, --engines ENGINES
                        Specify a comma-separated list of search engines
  -o OUTPUT, --output OUTPUT
                        Save the results to text file
 
Example: python EngineCrawler.py -e baidu,yahoo -r 'inurl:php?id=1' -p 10 -o urls.txt
4.Screenshot:
搜索引擎爬虫工具
 
代码如有不足之处,还请多多指正~
github项目地址:https://github.com/heroanswer/EngineCrawler

本文来自: 蜗蜗侠's Blog-关注网络安全 http://blog.icxun.cn/Tools/693.html

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
网友点评
暂时未开启评论功能~