面试链接之分布式爬虫

简介

本篇第一部分为西北某211的学生的毕设内容简单说明。

本篇第二部分为客户端爬虫平台的搭建。

第一部分

先是分两批接单完成基本的代码的完成内容,并且搭建在Docker,KVM和k8s上,因为需要配置相关代码在不同环境下跑的性能基本测试。k8s用的containerd,没有用docker,配置k8s使用的是ansible的playbook,当然playbook不是自己写的。

然后代码完成后分三批接的文章单子,分批完成。涉及内容:

涉及 Scrapy-redis,去重,Docker,MongoDB,RESTAPI后端,CORS,前端是vue。再添加性能测试,环境部署和测试。

第二部分

在面试一家爬虫的公司时候,了解了其爬虫的现状,目前web端爬越来越难爬了,所以有意识希望转到其他前端如安卓,小程序等等爬,反爬规则少。

1.这样部分涉及到安卓apk的解包,模拟客户端操作。或者在小程序代码中解包加密方式。

2.部分应用也可以用虚拟机配上不同ip完成。(不同ip使用透明路由,接入不同的ip)。

3.复杂请求需要建立手机集群模拟环境,使用appium或者autojs获取相关信息。

4.小程序的数据抓取,居然是使用mitproxy和fiddler一类的抓包工具,这么多年,14年是这样抓包,21年还是用这套。。