Python爬虫之selenium半自动化处理

我们有时候访问某站的时候一出来就是验证码,但是爬虫工作者不喜欢呢,有些时候,我们可以稍微欺骗一下哪些网站,先让他们知道我们前一步骤是认为访问的,他们相信了以后我们就赶紧换人,让机器自己上

selenium有一个远程调试的功能,这个地方就很有意思了,给你指定的IP和端口号,自己连去吧

所以我们只需要“手动”打开浏览器,这里以chrome为例

1. 将 chrome.exe 的执行文件路径添加到环境中去

2. 打开命令行,执行如下命令

chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\selenium\AutomationProfile"

# 这句话的意思就是打开一个浏览器,
# (此时的浏览器虽然是非模拟的,但是也非是真实的,因为这里没有你的任何收藏和访问记录),
# 指定一个端口,并指定一个文件的缓存路径

# 回车就会打开一个浏览器窗口

3. 手动进入网站并把你希望的部分认为的滑过去

4. 代码连接这个ip+端口,接下来的事情让机器来完成

# -*- encoding: utf-8 -*-

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')  # 进入到调试模式

driver = webdriver.Chrome(options=options)

######## 接下来就是机器该干的事情 ########
driver.get('******')  # 机器该干的事情

然后就完成了半人工养殖半自动飞行了