freeBuf
主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

点我创作

试试在FreeBuf发布您的第一篇文章 让安全圈留下您的足迹
我知道了

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

0

1

2

3

4

5

6

7

8

9

0

1

2

3

4

5

6

7

8

9

0

1

2

3

4

5

6

7

8

9

0

1

2

3

4

5

6

7

8

9

0

1

2

3

4

5

6

7

8

9

0

1

2

3

4

5

6

7

8

9

0

1

2

3

4

5

6

7

8

9

0

1

2

3

4

5

6

7

8

9

0

1

2

3

4

5

6

7

8

9

WARCannon:一款功能强大的高速低功耗网络爬虫
Alpha_h4ck 2021-09-07 20:29:26 255716

关于WARCannon

WARCannon是一款功能强大的高速低功耗网络爬虫,可以帮助广大研究人员以最简单和快速的方式爬取网络资源。

WARCannon支持的功能如下:

针对真实场景中常见的爬取数据构建和测试正则表达式模式;

支持加载常见爬取数据库,支持并行处理;

支持大规模数据计算处理(异步);

数据存储,轻松检索爬取结果;

工作机制

WARCannon巧妙地利用AWS技术,可以横向扩展以支持任何规模的数据爬取,并且能够根据需求转换服务传输地区以将成本降至最低,然后以最快的速度从S3中提取数据,每个节点速度高达100Gbps,并使用数百个CPU内核进行并行处理,然后通过DynamoDB和CloudFront报告爬取状态,并通过S3存储结果。

工具安装

WARCannon的运行需要我们安装并配置好下列组件:

awscli (v2)

terraform (v0.11)

jq

jsonnet

npm (v12或v14)

接下来,使用下列命令将该项目源码克隆至本地,然后拷贝配置样本文件:

$ git clone git@github.com:c6fc/warcannon.git

$ cd warcannon

warcannon$ cp settings.json.sample settings.json

开发正则表达式

首先,我们需要打开lambda_functions/warcannon/matches.js文件,然后修改regex_patterns对象来引入正则表达式。数据格式为“name: pattern”格式。下面给出的是默认搜索数据集的一个样本:

exports.regex_patterns = {

"access_key_id": /(\'A|"A)(SIA|KIA|IDA|ROA)[JI][A-Z0-9]{14}[AQ][\'"]/g,

};

除此之外,我们还可以从指定域名爬取数据:

exports.domains = ["example1.com", "example2.com"];

工具运行演示

项目地址

WARCannon:GitHub传送门

参考资料:

https://regexr.com/

https://commoncrawl.org/

https://registry.opendata.aws/

# 爬虫 # 数据爬取 # 数据检索
本文为 Alpha_h4ck 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
firewalld
Alpha_h4ck LV.10
好好学习,天天向上
  • 2359 文章数
  • 1020 关注者
Tetragon:一款基于eBPF的运行时环境安全监控工具
2025-01-21
DroneXtract:一款针对无人机的网络安全数字取证工具
2025-01-21
CNAPPgoat:一款针对云环境的安全实践靶场
2025-01-21
文章目录