|  |      1mhycy      2015-02-26 22:00:25 +08:00 爬的是哪个站?有多少资源可用? | 
|  |      2iannil      2015-02-26 22:53:20 +08:00 可以参考我这个回复 http://v2ex.com/t/127220#reply5 | 
|      3laotaitai      2015-02-27 01:57:31 +08:00 直接外包给我吧. 不过哈, 一般情况下, 少于5W的项目我不接. 哥是专业的玩爬虫的. 我写过爬取全世界60%左右连了网的电脑, 一共收集了3亿的资源的. 对, 你没看错, 就是爬你们的电脑, 不是爬网站. | 
|      4xiaobo      2015-02-27 02:18:37 +08:00 via iPhone @laotaitai 请问如何做到的 个人电脑资料 难道是通过木马收集的 那全球60%的电脑 得多少,不科学啊 | 
|  |      6fising      2015-02-27 08:00:18 +08:00 3楼吹牛逼不打草稿 | 
|  |      7mrhuiyu      2015-02-27 08:28:00 +08:00 @laotaitai 话说···爬电脑?首先不礼貌的冒问一下···今天不是愚人节?额·····好吧那请问····假设电脑关机和非管理员用户登录电脑后无法访问指点盘符,那爬虫可以进去访问? | 
|  |      8jedyu      2015-02-27 08:37:07 +08:00 3楼是爬IP吧? | 
|      9mozutaba      2015-02-27 09:29:51 +08:00 3楼是爬ip的开放服务? | 
|  |      10joshryo      2015-02-27 09:33:13 +08:00 3楼太谦虚了,居然还有40%连了网的电脑没爬。 | 
|  |      11xidianlz      2015-02-27 09:43:57 +08:00 3楼说的是扫描比较好吧 不算爬虫 | 
|  |      12xFan      2015-02-27 09:51:37 +08:00 3楼歪楼以后没人理楼主了... 你们赶紧正回来,. | 
|  |      13angerskon      2015-02-27 10:00:36 +08:00 3楼说的3亿的资源是指的3亿台电脑吗?照你说的60%来算,也就是说全球5亿左右的计算机联网。ipv4的地址一共42亿左右,除掉一些保留的,怎么也不止5亿吧。 | 
|  |      14thinkmore      2015-02-27 10:07:26 +08:00 3楼就是来骗回复的 | 
|  |      15crazycookie      2015-02-27 10:13:53 +08:00 楼上都被 3楼带歪了 其实有偿指导也是一件 比较 bug的事情 这种分布式我在做,确实 scrapy + redis 可以完成这些 我用linode跑的国外的站,4台服务器,还算稳定 | 
|  |      16binux      2015-02-27 10:34:02 +08:00 via Android 千万级别不算大型啊。。。 | 
|  |      17lucn      2015-02-27 10:56:32 +08:00 scrapy开发成本高,pyspider半小时搞定 | 
|  |      18gouwudang      2015-02-27 11:01:34 +08:00 楼主可以来我司工作,每天得爬上亿条数据 | 
|  |      20cxl008      2015-02-27 11:05:58 +08:00 scrapy+mongodb+redis 的方案 分布40台机器。。 爬取国内200多个安卓市场。。。。。。。。数据量到1亿左右。。没有3楼那么牛逼了。。。。 | 
|      22CodeDrift      2015-02-27 11:14:54 +08:00 突然感觉3L在360上班。。。 | 
|  |      24mengskysama      2015-02-27 11:29:54 +08:00 | 
|  |      25nine      2015-02-27 11:45:38 +08:00 pyspider吧,很好用。。 | 
|  |      31professorz OP | 
|  |      332dog      2015-02-27 13:29:19 +08:00 @laotaitai  邮件沟通吧 [email protected] | 
|      34inter      2015-02-27 14:18:54 +08:00 千万算个球大型。我们这一台服务器上的一个爬虫实例,一天就是上千万的请求。 其实还能更高,但是现在提不上去的原因是一个实例就把对方一台服务器的下行吃满了。我们还得想着怎么帮对方提高吞吐量,对方cdn配置有问题的时候还得帮他们做同步. python真是弱啊,上亿的就几十台服务器了。我们这一台单核1g机器,跑两个实例。 1亿请求,200多个站点,这就是台好点的服务器的事情 | 
|      35Yannis1990      2015-02-27 14:53:17 +08:00 一直想知道 “千万级” 的网站是什么意思?   千万个页面? | 
|  |      37professorz OP @Yannis1990 嗯 千万个条目 | 
|  |      38mengskysama      2015-02-27 15:44:25 +08:00  1 @cxl008 www.66ip.cn/zz.html 估计都是扫出来的,无辜的网民 | 
|  |      39mikangchan      2015-02-27 18:16:32 +08:00 想求教下怎么精确控制内容... 数据量不大,不过图片较多,而且要精确控制一部分文字内容 | 
|  |      41lonelygo      2015-02-27 23:53:28 +08:00 我是来看3楼歪楼的 | 
|  |      42flyingkid      2015-02-28 09:16:30 +08:00 3L如果是写DHT爬虫的话我还是相信的。 | 
|  |      43professorz OP @inter 你们不是用的python?用的啥? | 
|  |      45linkupmylife      2015-03-01 13:57:44 +08:00 我也玩过爬虫,爬完全是HTML,再用HTM转TXT之后放到EXCEL里筛选,非常麻烦。 |