最近在使用爬虫爬取数据时,经常会返回403代码,大致意思是该IP访问过于频繁,被限制访问。限制IP访问网站最常用的反爬手段了,其实破解也很容易,就是在爬取网站是使用代理即可,这个IP被限制了,就使用其他的IP。对于高大上的公司来说,他们基本都使用收费的代理,基本不会有什么问题,比较稳定。像我这样的矮矬穷,肯定是用不起收费的代理。一般都是使用国内免费的代理,网上也有很多提供免费的代理。
很多人都是从网上爬取一批免费的代理IP,存放在存储媒介中,例如excel文件或者数据库。定时维护代理,保证代理可用。这个做法有个缺点,有些机器上并没有装有excel或者mysql、redis等数据库,这就导致了的代理池无法正常使用。
我之前是做java开发的,经常会把一些常用的数据放在ArrayList中,使用起来非常方便,效率高,因此借鉴之前在java方面的经验,将代理IP爬取下来存放在list列表中中,将list列表当做一个代理池,经常维护这个池里的代理。
我经常爬取免费代理的网站xicidaili swei360等,这些免费的代理足够我使用了,能够应付大多数的爬虫工作。爬取过程需要用到requests和pyquery库,没有安装的同学自行安装。
首先介绍下爬取xicidaili网站的过程, 要先定义一个方法用于抓取xicidaili网站的,参数有两个,一个是url,另外一个是要爬取代理网页的页数,也就是要爬几页,方法如下:
def get_xicidaili_proxy(url,page): for i in range(1,page): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"} response = requests.get(url + str(i), headers=headers) html = response.text doc = pq(html) ip_list = doc('#ip_list')('tr:gt(0)').items() for item in ip_list: ip = item.find('td:nth-child(2)').text() port = item.find('td:nth-child(3)').text() http_type = item.find('td:nth-child(6)').text() proxy_ip = http_type + "://" + ip + ":" + port if http_type == 'HTTP': http_proxy_pool.append(proxy_ip) elif http_type == 'HTTPS': https_proxy_pool.append(proxy_ip) # print(proxy_ip)
定义了http_proxy_pool和https_proxy_pool两个list变量,用于存储http类型和https类型的代理。 使用PyQuery根据css伪选择器提取出ip,端口和http类型信息,并按照http:// + ip+port的方式组合成一个字符串,存储在已经定义好的http_proxy_tool和https_proxy_pool变量中。
爬取swei360网站代理的方法就不贴出来了,原理和爬取xicidaili网站是一样的。
一个代理在使用之前要判断是否可用,我们使用request的get请求的返回代码判断代理是否可用,返回200,就说明代理可用,返回其他的代码就表示代理不可用,代码如下:
def detect_proxy(test_url,http_type,proxy): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"} proxy={ http_type : proxy } try: response = requests.get(test_url,proxies=proxy,headers=headers) if response.status_code in [200]: print('代理可用',proxy) return True else: print('代理不可用', proxy); delete_proxy(http_type,proxy) return False except(requests.exceptions.ProxyError,RequestException): print('代理不可用', proxy) delete_proxy(http_type, proxy) return False
定义了detect_proxy方法用于检测代理是否可用,有三个参数,分别是测试网址,代理类型(http和https)和代理IP。当requests的请求返回200代码时,就表示该代理可用,返回True,否则就是不可用,返回False。当遇到request异常或者其他的错误也认为代理不可用,返回False。对于不可用的代理,要从代理池中删除。
从代理池中获取代理时,我们使用的是从代理池中随机返回一个代理,这样就避免经常使用一个代理,从而遭到拒绝访问。代码如下:
def get_https_proxy(): proxy_ip = random.choice(https_proxy_pool) return proxy_ip def get_http_proxy(): proxy_ip = random.choice(http_proxy_pool) return proxy_ip
为了保证代理的可用,当检测到一个代理不可用时,要及时的清理掉。就是从http_proxy_pool和https_proxy_pool列表中删除。
一个简单的爬虫代理池已经搭建好,总结下爬虫代理池搭建的过程:
- 从免费的代理网站上爬取代理信息,存放在列表中。
- 提供从代理池中随机获取代理的方法。http类型的网站要使用http类型的代理,https类型的网站要使用https类型的代理,因此分别提供获取http和https类型代理的方法。
- 提供检测代理是否可用的方法,代理可用返回True,不可用返回False。
- 提供删除代理的方法。
这个代理池其实相当的简单,有一个弊端就是在检测代理是否可用时,如果返回的不是200代码就认为代理不可用,返回其他代码的情况有很多,例如网络不可用、测试网站不可访问等。比较好的做法是给每个代理设置一个分值,例如10分,如果检测到不可用就减1,当分数为0时,就确定该代理不可用,直接从代理池中移除。检测到代理可用,就将分数设为10分。
这种做法给每个检测到不可用代理一个改邪归正的机会,不至于一刀切的抛弃掉。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
- 雨林唱片《赏》新曲+精选集SACD版[ISO][2.3G]
- 罗大佑与OK男女合唱团.1995-再会吧!素兰【音乐工厂】【WAV+CUE】
- 草蜢.1993-宝贝对不起(国)【宝丽金】【WAV+CUE】
- 杨培安.2009-抒·情(EP)【擎天娱乐】【WAV+CUE】
- 周慧敏《EndlessDream》[WAV+CUE]
- 彭芳《纯色角3》2007[WAV+CUE]
- 江志丰2008-今生为你[豪记][WAV+CUE]
- 罗大佑1994《恋曲2000》音乐工厂[WAV+CUE][1G]
- 群星《一首歌一个故事》赵英俊某些作品重唱企划[FLAC分轨][1G]
- 群星《网易云英文歌曲播放量TOP100》[MP3][1G]
- 方大同.2024-梦想家TheDreamer【赋音乐】【FLAC分轨】
- 李慧珍.2007-爱死了【华谊兄弟】【WAV+CUE】
- 王大文.2019-国际太空站【环球】【FLAC分轨】
- 群星《2022超好听的十倍音质网络歌曲(163)》U盘音乐[WAV分轨][1.1G]
- 童丽《啼笑姻缘》头版限量编号24K金碟[低速原抓WAV+CUE][1.1G]