天涯有一个帖子,作者在上面更新自己的某部小说。持续更新了好几年。前两天通过作者的微博得知更完了,但是由于更贴时间太长,这个帖子的灌水回复太多,现在已经有2500多页(注意不是2500楼,是2500页)。
现在希望把作者的内容通过爬虫爬下来,保存为TXT。以前y用Python写过一个爬天涯的爬虫,为了防封IP用的是最笨的办法
time.sleep(1)
小贴很好办,但是这个2500楼的帖子,真心等不起。
求一个可以快点把帖子爬完的办法
     1 
                    
                    WeeH9T      2015-05-29 09:17:34 +08:00 
                    
                    http://www.tianyatool.com/ 只看楼主,再抓呗。。 
                 | 
            
     2 
                    
                    tao1991123   OP @hambut  不行即使这样还是有1400多页 
                 | 
            
     3 
                    
                    ob      2015-05-29 09:26:08 +08:00 
                    
                    一页一页爬啊,还要怎么加速?一次性的? 
                 | 
            
     4 
                    
                    jedyu      2015-05-29 09:27:34 +08:00 
                    
                    代理、分页多线程/多进程 
                 | 
            
     5 
                    
                    pimin      2015-05-29 09:31:33 +08:00 via iPhone 
                    
                    1400页还要加速? 
                哪些资源采集的不得用超级计算机啦  | 
            
     6 
                    
                    ooh      2015-05-29 09:32:38 +08:00 
                    
                    1400也闲多? 
                 | 
            
     7 
                    
                    sacuba      2015-05-29 09:41:55 +08:00 
                    
                    2500页 一天应该没问题吧 
                 | 
            
     8 
                    
                    matrix67      2015-05-29 09:50:38 +08:00 via Android 
                    
                    1400秒不到半小时啊 
                 | 
            
     9 
                    
                    gxm123gxm      2015-05-29 09:59:03 +08:00 
                    
                    lz要不直接贴代码? 
                 | 
            
     10 
                    
                    fnd      2015-05-29 10:19:33 +08:00 
                    
                    1400页真不多。 
                 | 
            
     11 
                    
                    ericls      2015-05-29 10:28:42 +08:00 
                    
                    呃 异步爬虫 两分钟啊 
                 | 
            
     13 
                    
                    tao1991123   OP @ericls  求详细实现思路 
                 | 
            
     14 
                    
                    lch21      2015-05-29 10:49:44 +08:00 
                    
                    搞一堆代理ip爬 
                 | 
            
     15 
                    
                    touch      2015-05-29 11:06:06 +08:00    1400页还要加速,1400页也就分分钟的事吧 
                 | 
            
     16 
                    
                    wesley      2015-05-29 11:17:54 +08:00 
                    
                    去爬wap版要容易很多 
                 | 
            
     17 
                    
                    shoumu      2015-05-29 11:18:10 +08:00 
                    
                    楼主是哪个帖子,让大家都来爬爬,看谁能够用时最短爬完。 
                 | 
            
     18 
                    
                    est      2015-05-29 11:23:55 +08:00 
                    
                    2500楼,time.sleep(1) ,也就一个小时就抓完了啊。 
                 | 
            
     19 
                    
                    Mutoo      2015-05-29 11:27:46 +08:00 
                    
                    等这帖子回复的时间,早爬完了。 
                 | 
            
     20 
                    
                    tao1991123   OP @Mutoo  追求更快更好,反正有个这需求,真好借这个机会学习提高一下 有何不好? 
                 | 
            
     21 
                    
                    mV2GK      2015-05-29 11:41:51 +08:00 
                    
                    用scrapy爬会好点吧。。。 
                 | 
            
     22 
                    
                    anexplore      2015-05-29 11:43:10 +08:00 
                    
                    到这上面挑几个速度较快的高匿名代理,多开几个进程,http://www.proxy.com.ru/ 
                 | 
            
     23 
                    
                    mahone3297      2015-05-29 12:22:00 +08:00 
                    
                    爬的太快,不怕被ban? 
                单机,必须要慢慢爬啊。。。  | 
            
     24 
                    
                    abelyao      2015-05-29 12:38:46 +08:00 
                    
                    @tao1991123  
                这帖子没几个人是站在楼主这种学习的角度去思考的,而是觉得 1400+ 秒能爬完就完了,万一下次遇到一篇 14000+ 秒的呢? 我对 python 不熟,但是爬虫的思路基本是一直的,无关语言。 首先用 sleep 来卡 1 秒是完全没必要的,这直接影响了爬虫效率。 要防止被 ban 无非就是不断换 IP 地址、user-agent 等等这些识别信息。 多线程并发是肯定要的,保证了你一秒钟可以多爬几个页面,那效率就翻倍提升了。  | 
            
     25 
                    
                    omph      2015-05-29 12:51:49 +08:00 
                    
                    
                 |