freeBuf
主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

【Web逆向】修改浏览器的C++代码,定制随机指纹
2025-01-02 05:08:49
所属地 河北省

1.为什么自动化爬取数据?自动化爬取有什么困境?

Tips:为什么要用自动化来爬取数据?直接走协议不香吗?

网络爬虫要获取数据,最好最快的方法,自然是使用协议来进行模拟登录,获取数据等行为。但是现如今的网页端反爬虫措施越来越完善,爬虫和反爬虫的对抗已经进入了白热化,甚至可以说一天不学习就会落后很多。

相比于协议的反爬虫力度来说,自动化的压力要小很多,自动化来爬取数据速度只是比人手动快一些,比协议要慢的多。这也说明自动化爬虫对网站的伤害比较小。如果网络爬虫的要求仅仅是完成一些重复性工作,或者说只是爬取到数据就好,爬慢一点也无妨,使用自动化确实是一个好的方案(虽然爬虫界各大佬对自动化的鄙视是表露在外的)。

Python爬虫在进行自动化的时候,最常用的是selenium,因为不少网站会检测selenium的一些特征。更进一步,如果不使用selenium,而使用其他的自动化工具,也可以检测webdriver之类的自动化特征,或者干脆就看看你的JS操作的isTrust,如果是手动出发的就是True,JS触发的就是False。

此外,还有浏览器的指纹检测,将一台机器上相对稳定不变的参数作为指纹搜集,比如canvas,webgl,webAudio,SSL/TLS指纹等等,举一个浏览器指纹检测的例子https://gongjux.com/fingerprint/。

面对自动化反爬,许多人的处理方案就是使用油猴脚本,通过Hook来对一些参数获取进行劫持替换,我们接下来采取一种更底层的方式,直接取修改chromium浏览器的C++层代码

当编译好一个自己修改过的chromium浏览器,并随机了指纹,可以采用两种方案进行数据爬取:

  1. 使用playwright进行浏览器驱动和自动化。
  2. 使用Windows的API进行浏览器的自动化,借助Fiddler之类的工具转发数据到本地服务。

但今天讲的文章里,我们主要探究如何自己定制修改chromium浏览器。

2.chromium浏览器的源码该如何编译?

Tips:由于chromium的源码在不停地更新换代,所以如果按照网上的经验贴通常是无法编译成功的,所以最好的方式就是通过谷歌的官方文档进行编译。

官方文档地址:chromium编译官方文档 。

记住,你现在可以编译,不代表你以后也可以用这套环境编译最新的源码。别人可以编译,不代表你也能够编译。 一切以官方文档为标准 。

编译chromium源码的系统要求:

64位的电脑,而且至少有8G的内存,16G以上更好,多多益善。
只编译chrome,需要至少100G的NTFS格式的磁盘存储空间,如果要整体编译,需要至少200G以上的存储空间。
比较新的版本的visual studio,至少vs2017以及之后的版本。
Windows 10或者更新的操作系统。
满足以上条件就可以愉快地开始编译了。

(1)visual studio的配置
Chromium 需要Visual Studio 2017 (>=15.7.2) 才能构建,但最好使用Visual Studio 2019 (>=16.0.0)。本次编译示范使用的是vs2019的社区版。
image.png
这里必须要勾选使用C++的桌面开发其中的MFC/ATL组件。
此外,需要额外安装SDK10.0.20348.0。下载链接在这里:SDK下载地址
安装SDK的时候,Debugging Tools是必须的,保险起见,还是全部勾选吧:
image.png
(2)安装depot_tools
下载depot_tools压缩包并解压,并将其配置到环境变量的开头,由于其中会涉及到Python环境变量,所以务必将它移动到最开始,以防Python环境变量配置错误。

配置环境变量的方式:控制面板→系统和安全→系统→高级系统设置:
image.png
配置成功后,到对应的depot_tools的目录之下,使用管理员方式打开CMD,运行命令gclient,这一步可能需要科学上网,务必保证你可以科学上网。

(3)环境变量
接下来,需要在环境变量中新增以下键值对,其中的GYP_MSVS_OVERRIDE_PATH和vs2019_install填写你自己的vs路径,GYP_MSVS_VERSION是对应的vs版本,WINDOWSSDKDIR是你的SDK安装的路径。

http_proxy和https_proxy是你的科学上网相关的代理。

DEPOT_TOOLS_WIN_TOOLCHAIN=0
GYP_GENERATORS=msvs-ninja,ninja
GYP_MSVS_OVERRIDE_PATH=E:\vs2019
GYP_MSVS_VERSION=2019
vs2019_install=E:\vs2019
WINDOWSSDKDIR=C:\Program Files (x86)\Windows Kits\10

http_proxy=127.0.0.1:7890
https_proxy=127.0.0.1:7890

(4)chromium源码拉取和编译
配置了这么多,终于到了源码拉取的部分,但是这也是最耗费时间的部分。

mkdir chromium && cd chromium  # 任意创建一个目录接收源码
fetch chromium --no-history    # 拉取最新源码,不带--no-history则拉取完整源码
gclient sync --no-history      # 因为网络缘故断开,使用这一句重新同步源码

源码拉取完毕之后,当前目录下会多出一个src目录,源码就位于其中。

cd src                        #进入目录
gn gen --ide=vs out\Default          #在out\Default目录下生成工程文件
autoninja -C out\build mini_installer
#编译源码,编译后生成chrome.exe和一个chrome.7z压缩文件
#如果不带mini_installer将会进行整体编译,将近10w个文件,非常耗时

编译完成后,进入out\Default目录下:
image.png
到此为止,chromium最新版源码编译成功。

# web安全 # Web爬虫
免责声明
1.一般免责声明:本文所提供的技术信息仅供参考,不构成任何专业建议。读者应根据自身情况谨慎使用且应遵守《中华人民共和国网络安全法》,作者及发布平台不对因使用本文信息而导致的任何直接或间接责任或损失负责。
2. 适用性声明:文中技术内容可能不适用于所有情况或系统,在实际应用前请充分测试和评估。若因使用不当造成的任何问题,相关方不承担责任。
3. 更新声明:技术发展迅速,文章内容可能存在滞后性。读者需自行判断信息的时效性,因依据过时内容产生的后果,作者及发布平台不承担责任。
本文为 独立观点,未经允许不得转载,授权请联系FreeBuf客服小蜜蜂,微信:freebee2022
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
相关推荐
  • 0 文章数
  • 0 关注者