今天来介绍一下如何用Python3的内置模块搭建一个简单的服务器,Python自带有服务模块 而且python3相比于python2有很大不同之处,在Python2.x版本里,Python目录中含有BaseHTTPServer.py, SimpleHTTPServer.py, CGIHTTPServer.py文件,但是在Python3.x中,上面提到的模块http/server.py文件里了
之前做爬虫的时候经常需要selenium模拟,我经常用的是Firefox和Chrome浏览器,但是在使用的时候总是会打开浏览器才能正常抓取数据,无奈之下下载了PhantomJS,但是呢PhantomJS其实官方已经放弃维护了,所以在运行程序的时候经常会被提示其已被弃用,经常会以为自己是代码出问题了。
创建就不说了,直接撸代码 运行环境:python 3.6.0 #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2019-04-01 22:30:10 # Project: qunar from pyspider.libs.base_handler import *
运行环境:python 3.6.0 """ 抓取今日头条街拍美图,然后抓取到的图片去重后分类存放 为了加快效率启动了多进程 """ import requests from urllib.parse import urlencode import os from hashlib import md5 from multiprocessing.pool import Pool
对于反爬虫来说,部分对策可以选择Selenium模拟器进行爬取,但是问题来了,如何设置请求头呢,模拟器是怎样伪装的呢? 目录: 一:selenium设置phantomjs请求头 二:selenium设置chrome请求头 三:selenium设置chrome–cookie 四:selenium设置phantomjs-图片不加载