技术栈记录

分类：爬虫

Python爬虫之python+selenium+mitmproxy

Python爬虫之python+selenium+mitmproxy

做爬虫最大的困扰就是对方的反爬措施，最好不要强攻，能绕过就绕过，毕竟上网需要科学 selenium 指纹被做了记号如何破？这个时候说明对方已经检测了你的行为特征，这是一个比较严肃的问题，尤其是在破解滑动验证码的时候大厂的技术团队还是给了我们一个更难解决的问题，就是通过 js 给 webdriver 请求响应错误信息，所以我们要做的是把这些影响科学上网的 js 代码给废掉

爬虫 2020年04月16日

Python爬虫之selenium半自动化处理

Python爬虫之selenium半自动化处理

我们有时候访问某站的时候一出来就是验证码，但是爬虫工作者不喜欢呢，有些时候，我们可以稍微欺骗一下哪些网站，先让他们知道我们前一步骤是认为访问的，他们相信了以后我们就赶紧换人，让机器自己上 selenium有一个远程调试的功能，这个地方就很有意思了，给你指定的IP和端口号，自己连去吧所以我们只需要“手动”打开浏览器，这里以chrome为例

爬虫 2020年04月15日

Python爬虫之selenium的检测与突破

Python爬虫之selenium的检测与突破

selenium 是一个很友好的网站调试工具，但是很多人都用来做爬虫，其实我也是用来做爬虫，毕竟好东西要共享，哈哈在做静态网页的请求的时候，普通的http/https可以很轻松的搞定，但是面对动态网页，很多内容都是通过后面的js加载出来的，如果还要用协议解决，希望你遇到的问题可以解决。在爬虫这一块，很多反爬虫对方对selenium并不是太友好

爬虫 2020年04月13日

selenium登陆某宝的滑动怎么过

selenium登陆某宝的滑动怎么过

selenium登陆淘宝的滑动怎么过，确实淘宝在滑动这一块限制了很多条件没太多废话，上效果，在分析过程，上传code 由于现在大型网站对selenium工具进行检测，若检测到selenium，则判定为机器人，访问被拒绝。所以第一步是要防止被检测出为机器人，如何防止被检测到呢？当使用selenium进行自动化操作时，在chrome浏览器中的consloe中输入

爬虫 2020年06月25日

Scrapy爬虫数据架构图

Scrapy爬虫数据架构图

Scrapy是基于用Python写的一个流行的事件驱动网络框架Twisted编写的。因此，它使用非阻塞(即异步)代码实现并发。 Scrapy中的数据流由执行引擎控制，如下所示: Engine获得从爬行器中爬行的初始请求。 Engine在调度程序中调度请求，并请求下一次抓取请求。调度程序将下一个请求返回到引擎。

爬虫 2019年10月29日