V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ke1vin
V2EX  ›  问与答

一个 24 小时跑的爬虫程序主机需要什么配置?

  •  
  •   ke1vin · 2018-03-15 13:10:13 +08:00 · 3963 次点击
    这是一个创建于 2479 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我想做一个豆瓣小组发帖搜索引擎,主要是要爬指定豆瓣小组的数据,保存的数据包括文本和图片。

    前几天上了腾讯云的车,但是感觉配置达不到要求( 2G 内存,50G 硬盘),什么样的配置可以跑?

    15 条回复    2018-03-15 14:55:20 +08:00
    golmic
        1
    golmic  
       2018-03-15 13:13:49 +08:00 via Android
    看你抓的频率和范围吧,像豆瓣的小组更新频率并不高,再看看你要抓全部小组么。可以联系我详聊,层主是数据工程师。公众号 pydatame 有我联系方式。
    tailf
        2
    tailf  
       2018-03-15 13:54:23 +08:00
    先解决被封的问题再来说吧。。。。
    Hzzone
        3
    Hzzone  
       2018-03-15 13:57:39 +08:00 via iPhone
    一个爬虫主要有多好的配置……
    murmur
        4
    murmur  
       2018-03-15 14:02:20 +08:00
    需要超级多的代理
    ke1vin
        5
    ke1vin  
    OP
       2018-03-15 14:06:41 +08:00
    @Hzzone 我主要是在想硬盘多久会写满。。。
    ke1vin
        6
    ke1vin  
    OP
       2018-03-15 14:07:30 +08:00
    @murmur 代理是为了防止被封?降低访问频率应该可以破
    ke1vin
        7
    ke1vin  
    OP
       2018-03-15 14:11:39 +08:00
    @tailf 感觉问题不大,我主要是想硬盘如果写满怎么办
    aoxiansheng
        8
    aoxiansheng  
       2018-03-15 14:18:39 +08:00
    如果你想降低频率破封,你现在的配置足够了。
    ke1vin
        9
    ke1vin  
    OP
       2018-03-15 14:24:11 +08:00
    @aoxiansheng 硬盘呢,要不要担心写满的情况,我第一次开发爬虫程序。
    em70
        10
    em70  
       2018-03-15 14:34:14 +08:00
    爬了页面,提取了需要的数据就删了啊,留着这些文件干嘛

    50G 硬盘分 10 个 G 做数据库,能存个几千万条记录吧
    em70
        11
    em70  
       2018-03-15 14:35:21 +08:00
    文本和图片上传 oss,七牛这些专业储存服务去,便宜
    mhycy
        12
    mhycy  
       2018-03-15 14:38:30 +08:00
    @em70
    看数据体积和存储方式,Pixiv 5KW 的元数据,占地 80G
    tscat
        13
    tscat  
       2018-03-15 14:39:39 +08:00
    1g 内存都爬的很开心啊。
    50g 硬盘问题也不是特别大。除非你保存图片
    2ME
        14
    2ME  
       2018-03-15 14:40:50 +08:00
    图片多的话很快就塞满硬盘了 不过你策略不好的话可能还没爬满硬盘就被 ban 掉了 单爬数据就无所谓了 这配置跑爬虫绰绰有余
    aoxiansheng
        15
    aoxiansheng  
       2018-03-15 14:55:20 +08:00
    大哥你先干,有问题再解决。还没开始干,就想着解决问题了。
    不够买云盘即可。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2558 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 04:50 · PVG 12:50 · LAX 20:50 · JFK 23:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.