各位前辈好,个人花了一年业余时间认真学习了 Python 和 Redis ,准备在爬虫这块做深入一点,长久一点,需要维护一个 IP 代理池,目前采取了二种办法:
1 )在淘宝上购买 ip 代理,带 api 的那种,比较方便,但是发现可用性不是很高,在数百万的爬取中花费也上来了。
2 )爬取一些免费代理网站公开的代理 ip 列表,然后用这些列表去访问 baidu.com ,返回码 200 ,则表示可用。发现这些代理的可用性更低,而且很快失效。
想请教下各位前辈怎么维护自己的代理 ip 池,主要有二个问题:
1 、那些提供代理 ip 的网站他们的代理 ip 那里来的,如果是扫(或者爬)的,烦请告知需要些什么知识,我去学习了再来继续,有推荐书籍最好。
2 、怎么更好的验证代理的可用性,比如验证速度,是否高匿等。
非常感谢。
|      1hunk      2016-01-20 17:10:14 +08:00 这个问题我也考虑过,感觉只有付费才有可能得到高质量的服务。 还没进一步探索可行性。 | 
|  |      2codehehe      2016-01-20 17:10:18 +08:00 api 怎么收费的 | 
|  |      3lins05      2016-01-20 17:12:44 +08:00  2 | 
|      4jq8778      2016-01-20 17:13:41 +08:00  1 很久很久以前,有个软件叫 proxyfire ,各种自动,现在除了搜索之外的功能还是能用的。 要大量代理列表的话,一般用吸附,你可以去找几个日更的那种免费代理的 LIST ,然后直接吸附。 验证的话,一个 PHP 脚本搞定(好像叫 proxy judge 的),自己用台服务器,就几个参数(好像是 HTTP_FORWARDED 还是什么的)就可以判断出来了。 当然,爬虫保证稳定性,建议最好不用代理... | 
|      5yzimhao      2016-01-20 17:15:48 +08:00  1 | 
|      6eonboy      2016-01-20 17:27:07 +08:00 扫描的话看看 nmap | 
|      7edsion996      2016-01-20 17:52:27 +08:00 忘了什么地方看到过用 tor ,然后重启 tor 可以实现改变 ip 的目的。。。没有实践过,只是提供个思路 | 
|  |      8sohoer      2016-01-20 18:00:28 +08:00 | 
|  |      9crab      2016-01-20 18:14:13 +08:00  1 代理 IP 不管是免费还是收费,能用的太少了。 现在都是直接买个 VPS 带 adsl 拨号的, 1 天 5 元左右, IP 被封就重新拨号换个这样。 | 
|  |      10binux      2016-01-20 18:21:17 +08:00  6 1. 收集代理列表 2. 做一个或者找一个能显示 ip 和 header 的接口 3. 设置一个小于 5 秒的连接超时, 用代理访问这个地址, 测试访问性, 匿名性, 是否插广告, 是否是真的代理. 最好用异步 http 库去做 4. 将代理列表交给一个能够自动切换 /隔离失效代理的代理服务器, 比如 squid 或者自己写一个 5. 毎小时重复一遍 | 
|  |      11mengskysama      2016-01-20 19:41:43 +08:00 @yzimhao  我猜你这个验证是拿百度当靶的,然后判断字符串,结果很多人反代百度的。。。 | 
|  |      12just1      2016-01-20 19:45:18 +08:00 via Android 扫描还是 zmap | 
|      13TaMud      2016-01-20 21:55:22 +08:00 https://proxy.peuland.com 1 小时内可用的,上面都有 | 
|  |      14Felldeadbird      2016-01-21 00:45:49 +08:00 via iPhone 我一个单独的去验证可用性,用不了就记录。一周后重置,再代理。我的代理是收费的 | 
|  |      15ghy459      2016-01-21 02:27:22 +08:00 via iPhone 插个题外话,部分黑产就是靠抓全网代理赚钱的 | 
|      16em70      2016-01-21 02:40:29 +08:00 淘宝买的付费代理 API 绝对够用了,你要控制频率啊,不能摁着一个羊薅羊毛,几百个 IP 轮着来 | 
|  |      17ywencn      2016-01-21 08:37:04 +08:00 | 
|  |      18dreasky      2016-01-21 09:10:40 +08:00  2 用 TOR ,可以通过 socket 给 TOR 发送切换新 ip 消息,免费还无限量 | 
|  |      20louk78      2016-01-21 15:07:04 +08:00  1 用 Goagent ,谷歌的 IP 扫不完 | 
|  |      24feather12315      2016-03-19 10:29:22 +08:00 @TaMud {'message': 'hello bot'} ...... | 
|  |      25mapleray      2016-03-30 22:20:52 +08:00  1 | 
|  |      26feather12315      2016-03-30 23:54:01 +08:00 via Android @mapleray 感谢。当初嫌麻烦,懒得实现,这下有现成的啦~ | 
|  |      28Soar360      2018-01-16 11:05:50 +08:00 | 
|  |      29sw10      2018-02-24 20:53:08 +08:00 1. 那些提供代理 ip 的网站他们的代理 ip 那里来的? 部分是扫描来的,部分是自建的,另外一些是比较特殊的渠道。(如:路由器内置) 2. 怎么更好的验证代理的可用性,比如验证速度,是否高匿等。 判断是否高匿用 httpbin.org 就行。 最后广告以下,我自己有维护一个代理池,提供免费和付费两种形式,有部分 V2EX 的朋友在使用。具体参考下面的站内贴: /t/424630 |