代理负载均衡模块,更高效率的使用代理池
注:proxy_tower 本身不抓取、嗅探代理
多倍转发可有效解决免费 /不稳定代理使用率低的问题
movie.douban.com/subject/
1
locoz 2019-12-16 01:07:04 +08:00 via Android 1
看了一下,大概猜到你是弄这东西是为了干啥了…不建议用这么简单粗暴的方式硬怼,量大的话很容易把 IP 池给污染掉,用一段时间后会发现成功概率越来越低。
“付费代理过期时间不确定”这个有点迷,如果说是要保持使用同一个 IP 的话,跟同时转发给多个代理这个操作又是有冲突的。而且现在做得比较大的那几家代理 IP 商貌似都没有过期时间不确定这个情况? |
2
locoz 2019-12-16 01:09:13 +08:00 via Android 1
🤣然后现在国内有专门的爬虫社区了,我们夜幕团队弄的,楼主你可以去那边也发一下 hhhh,地址是: https://bbs.nightteam.cn
|
3
xtpitt OP @locoz 看过大佬的社区,明天去转发一下
1. 多倍转发特性主要是针对免费代理的,目的是快速过滤掉一些广告代理和低质代理,方式确实有点类似的多倍发包,哈哈哈。 付费代理的话,我之前用过的某麻代理等,都说明 15 分钟有效,但测试下来,过期时间确实不稳定。 2. 主要想推广 response 校验的特性,在别的代理项目中,暂时还没发现实现这个功能的~ |
4
locoz 2019-12-16 01:36:42 +08:00 1
@xtpitt #3 这样啊。我明天帮你喷一喷某麻的人 。
response 校验的话就是我前面说的,方便是方便但是容易把 IP 池污染掉。毕竟现在很多反爬虽然识别 IP 但并不是以 IP 作为核心判断点的(因为商业级代理 IP 全是拨号 IP...容易误伤),如果出现被反爬的情况很大概率是因为别的问题,而这种情况下如果还继续暴力请求的话就很容易被直接封 IP 了。 这种偏无感知的 response 校验操作挺好的,适合往一些框架里集成(指对反爬系统返回的东西进行通用化的校验)。 |
6
xtpitt OP @392039757 中小型项目还是可以玩玩的,毕竟还有很多公司不舍得买代理。开着校验和多倍转发,我在个人项目用着成功率很高。
|
7
lc7029 2019-12-16 11:27:13 +08:00 1
扫描 IP,能用就加到代理列表里
以前闲的蛋疼把 0.0.0.0-255.255.255.255 全扫了,顶多 43 亿地址 |