V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 外包信息请发到 /go/outsourcing 节点。
• 不要把相同的信息发到不同的节点
rubylove
V2EX  ›  酷工作

需爬虫兼职的大牛及询价

  •  1
     
  •   rubylove · 2014-07-30 21:45:09 +08:00 · 6449 次点击
    这是一个创建于 3770 天前的主题,其中的信息可能已经有所发展或是发生改变。
    请问各位大牛,有如下爬虫需求外包,请问一般开价几何?有兴趣的请联系我。 谢谢。

    针对类似如下网站,http://app.zjepb.gov.cn:8089/nbjcsj/
    1. 按照规定的数据库表的格式,将基础数据和每小时的实时数据内容爬取下来存入数据库,其中初始阶段应将所有可能的历史数据保存。
    算法要求:
    1,从之前向现在的时间取爬取,这样如果因为网络等原因断开后,再次开始时,能自动从更早的时间点开始爬取。
    2. 如果超时,至少要有3次重试。再超时,或者发生错误时,能发送邮件给指定人。
    2. 性能:内存不能超过300M, CPU使用率不能超过30%。
    3. 数据库:已设计好,使用postgresql.
    4. 做成可以用cron调用的命令,比如ruby或者node.js的可以执行的命令。
    第 1 条附言  ·  2014-12-19 10:03:32 +08:00
    寻长期兼职爬虫,最好python。懂postgresql和celery者优先。
    18 条回复    2016-12-11 01:42:37 +08:00
    rrfeng
        1
    rrfeng  
       2014-07-30 22:09:17 +08:00
    怎么从『更早的时间』开始爬?
    icedx
        2
    icedx  
       2014-07-30 22:24:06 +08:00
    大约半狗
    faceair
        3
    faceair  
       2014-07-30 22:25:33 +08:00
    爬虫用node写不错
    macken
        4
    macken  
       2014-07-30 22:46:07 +08:00 via Android
    这个爬虫需求不难,这个网站貌似很脆弱的样子,要注意别把对方的网站爬瘫,技术用啥实现都可以吧,crontab都可以调用
    cdwyd
        5
    cdwyd  
       2014-07-30 22:52:51 +08:00
    第二页还有往后的数据是根据首页的referer参数返回数据的?怎么会有这样的设计
    d0o0g
        6
    d0o0g  
       2014-07-30 23:09:24 +08:00
    专注爬虫定制服务三十年!经验丰富!
    政府网站各种奇葩!
    楼主的目标网站,响应很慢,不过也就十六页记录。
    所以程序写起来不会太难,用python脚本实现,轻松搞定。
    ultimate010
        7
    ultimate010  
       2014-07-31 00:02:28 +08:00
    搞定不难,价位多少?
    no13bus
        8
    no13bus  
       2014-07-31 00:18:40 +08:00
    恩。楼主给你163邮箱里面发了封邮件,你看看。可以的话联系邮件中的qq。
    RangerWolf
        9
    RangerWolf  
       2014-07-31 12:23:14 +08:00
    你们是不是已经把这个网站搞瘫痪了?完全打不开啊~ 哈哈
    chevalier
        10
    chevalier  
       2014-07-31 13:43:21 +08:00
    我可以做,原来做过半年的Python爬虫工作
    baigreen
        11
    baigreen  
       2014-07-31 16:44:23 +08:00
    so easy~
    小伙伴们上。。
    guosunpeng
        12
    guosunpeng  
       2014-07-31 18:26:16 +08:00
    为什么我想起了shadowprotect的增量备份
    chang888
        13
    chang888  
       2014-08-04 22:59:14 +08:00
    可以用node来做,不难实现。
    rubylove
        14
    rubylove  
    OP
       2014-12-19 09:59:17 +08:00
    @chevalier 还有兴趣做吗?
    rubylove
        15
    rubylove  
    OP
       2014-12-19 09:59:54 +08:00
    @d0o0g 还有兴趣?
    rubylove
        16
    rubylove  
    OP
       2014-12-19 10:00:55 +08:00
    现在需要扩大规模,爬取更多省份数据,如果还有兴趣的兄弟们,请联系我。 QQ:18028206
    chevalier
        17
    chevalier  
       2014-12-19 12:52:55 +08:00
    @rubylove 怎么联系你?
    yongjiu236z
        18
    yongjiu236z  
       2016-12-11 01:42:37 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5627 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 06:03 · PVG 14:03 · LAX 22:03 · JFK 01:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.