V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
GrahamCloud
V2EX  ›  推广

一个好用的爬虫应该有什么样的功能?有什么有趣的玩法?

  •  5
     
  •   GrahamCloud · 2016-11-25 18:09:47 +08:00 · 24652 次点击
    这是一个创建于 2707 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这两周,我们做了一个目前来看非常易用的云爬虫:

    主页在这里, zaoshu.io

    现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。

    第 1 条附言  ·  2017-02-06 12:07:22 +08:00
    我们精心制作了一个使用视频:
    http://t.cn/RJzmG8v
    第 2 条附言  ·  2017-02-23 14:25:49 +08:00
    昨天更新了 ui ,也做了新的视频。
    http://www.bilibili.com/video/av8748581/
    183 条回复    2017-04-26 11:13:45 +08:00
    1  2  
    lins
        1
    lins  
       2016-11-26 17:38:37 +08:00   ❤️ 1
    能分页爬嘛?
    GrahamCloud
        2
    GrahamCloud  
    OP
       2016-11-28 11:26:13 +08:00
    @lins 可以啊,修改规则里面。
    greatghoul
        3
    greatghoul  
       2016-11-28 14:42:10 +08:00   ❤️ 1
    楼主选择页面的标签的那个功能能开源吗?好喜欢。
    tokoy
        4
    tokoy  
       2016-11-28 14:46:11 +08:00   ❤️ 1
    蛮酷的 主要用啥语言爬的?
    GrahamCloud
        5
    GrahamCloud  
    OP
       2016-11-28 15:10:36 +08:00
    @greatghoul 暂时不能,哈哈,还要完善。
    wujunze
        6
    wujunze  
       2016-11-28 17:18:35 +08:00   ❤️ 1
    上周已经试用了
    exalex
        7
    exalex  
       2016-11-28 17:48:44 +08:00   ❤️ 2
    感觉好牛逼,特别是交互酷炫
    tumbzzc
        8
    tumbzzc  
       2016-11-28 18:57:45 +08:00   ❤️ 1
    “执行出错”,能不能把出错信息贴出来?
    wshedu
        9
    wshedu  
       2016-11-28 19:02:28 +08:00   ❤️ 1
    我试了两个东西
    一个是小说
    一个是企业信息 tianyancha.com 这个直接 403
    小说这个不能爬分页,
    能不能从爬数据-存储到数据库整个动作写完,如果可以的话。就可以放弃火车头了
    carlding123
        10
    carlding123  
       2016-11-28 19:03:32 +08:00   ❤️ 1
    每太用明白,选择规则时候点框框是什么意思,关键词么?没点击就选上了,选上还有时候取消不了,并且一个链接很多的页面好像并没有爬其他的页面呢...并且分析报告也没看懂,有没有文档啥的额...
    misaka20038numbe
        11
    misaka20038numbe  
       2016-11-28 19:04:46 +08:00   ❤️ 1
    测试了一下,被我的博客防镜像拦截了.说明有些加了保护的网站也是爬不了的.
    GrahamCloud
        12
    GrahamCloud  
    OP
       2016-11-28 19:46:44 +08:00
    @tumbzzc 如果告诉我您的邮箱,我们后台帮您排查一下
    GrahamCloud
        13
    GrahamCloud  
    OP
       2016-11-28 19:49:17 +08:00
    @wshedu 欢迎加我的微信, Zaoshuio
    我们想了解能不能做到更多个性化的要求。
    GrahamCloud
        14
    GrahamCloud  
    OP
       2016-11-28 19:50:06 +08:00
    @carlding123 分页是目前最大的问题,我们争取这周能拿出一个好的方案来。
    GrahamCloud
        15
    GrahamCloud  
    OP
       2016-11-28 19:51:11 +08:00
    @misaka20038numbe 我们是模拟了一个浏览器在访问,求加微信 Zaoshuio
    billyellow
        16
    billyellow  
       2016-11-28 20:10:48 +08:00
    蛮有意思的,支持支持
    misaka20038numbe
        17
    misaka20038numbe  
       2016-11-28 22:11:45 +08:00   ❤️ 1
    @GrahamCloud 原来是用了框架,怪不得.我不怎么用微信.
    wshedu
        18
    wshedu  
       2016-11-28 22:48:49 +08:00   ❤️ 1
    @GrahamCloud 已添加微信。就是我这个帐号
    GrahamCloud
        19
    GrahamCloud  
    OP
       2016-11-29 02:10:28 +08:00
    @misaka20038numbe 给的意见非常宝贵,感谢。
    GrahamCloud
        20
    GrahamCloud  
    OP
       2016-11-29 02:10:54 +08:00
    @wshedu 白天就加,手机拉下了。
    cougar
        21
    cougar  
       2016-11-29 09:53:16 +08:00   ❤️ 1
    说实话,真的很酷
    cougar
        22
    cougar  
       2016-11-29 09:54:23 +08:00   ❤️ 1
    不过我要的数据貌似是没获取到
    GrahamCloud
        23
    GrahamCloud  
    OP
       2016-11-29 11:38:39 +08:00
    @cougar 求问是什么数据,能帮到最好。
    cougar
        24
    cougar  
       2016-11-29 11:42:21 +08:00   ❤️ 1
    @GrahamCloud 我现在页面提示一直在执行中有一小时了,我的账号是 cougar999 ,在 gmail.com ,你应该能看到吧
    GrahamCloud
        25
    GrahamCloud  
    OP
       2016-11-29 11:58:15 +08:00
    @cougar 看到了,在解决。
    kenshinhu
        26
    kenshinhu  
       2016-11-29 12:10:22 +08:00   ❤️ 1
    哦,使用示例这里有拉勾的中山区域连接的? 这个怎样实现的?
    GrahamCloud
        27
    GrahamCloud  
    OP
       2016-11-29 13:35:31 +08:00
    @kenshinhu 结合定位。
    GrahamCloud
        28
    GrahamCloud  
    OP
       2016-11-29 15:35:34 +08:00
    @cougar 方便的话加下微信或者首页客服里聊聊吧,好像还在卡。认真解决一下。
    jaylong
        29
    jaylong  
       2016-11-29 17:27:42 +08:00   ❤️ 1
    邮件 token 非法
    GrahamCloud
        30
    GrahamCloud  
    OP
       2016-11-29 22:36:05 +08:00
    感谢!
    yu550461029
        31
    yu550461029  
       2016-11-30 11:12:42 +08:00   ❤️ 1
    打算爬一下国家统计局的行政区划,感觉不大会用呢
    GrahamCloud
        32
    GrahamCloud  
    OP
       2016-11-30 11:19:04 +08:00
    @yu550461029 想爬什么样的,具体说说?
    GreatMartial
        33
    GreatMartial  
       2016-11-30 11:25:29 +08:00 via Android   ❤️ 1
    支持,有空体验一下
    blackFool
        34
    blackFool  
       2016-12-01 12:00:53 +08:00   ❤️ 1
    界面交互不错,爬爬微信公号
    quericy
        35
    quericy  
       2016-12-02 15:14:31 +08:00   ❤️ 1
    页面元素只能选取,不能直接交互:
    http://www.huipinzhe.com/nanzhuang?page=1
    遇到有全屏遮罩的还得手动 F12......

    如果有的页面需要一系列操作 JS 拼接的数据,是不是就无法采集?
    GrahamCloud
        36
    GrahamCloud  
    OP
       2016-12-02 15:17:52 +08:00
    @quericy 因为上新 ui 的缘故,完成创建的步骤今天卡住了,采集方面,应该是能支持的。
    quericy
        37
    quericy  
       2016-12-02 15:22:01 +08:00   ❤️ 1
    @GrahamCloud 和创建步骤无关.我指的是相应页面原有的点击事件,而不是选用无用的元素.不少网站首次访问无 cookie 状态下会有全屏遮罩,这时是无法选取需要采集的列表的元素的

    GrahamCloud
        38
    GrahamCloud  
    OP
       2016-12-02 17:10:57 +08:00
    @quericy 这个坑确实是有点大,现在还在解决。欢迎加微信: Zaoshuio
    saber000
        39
    saber000  
       2016-12-04 02:25:16 +08:00   ❤️ 1
    没有 api 吗
    GrahamCloud
        40
    GrahamCloud  
    OP
       2016-12-05 11:10:01 +08:00
    @saber000 这是这两周的安排。
    GrahamCloud
        41
    GrahamCloud  
    OP
       2016-12-06 11:17:14 +08:00
    @saber000 api 需求欢迎提交给我,微信 Zaoshuio
    lakewong
        42
    lakewong  
       2016-12-12 15:06:55 +08:00   ❤️ 1
    试了试爬知乎首页
    GrahamCloud
        43
    GrahamCloud  
    OP
       2016-12-12 15:18:43 +08:00
    @lakewong 不不,不能爬首页,对于知乎,将来可以通过 api 来搞。
    首页的示例里,链家,拉钩这样的,是我们的主要应用场景。
    xvx
        44
    xvx  
       2016-12-12 15:29:56 +08:00 via iPhone   ❤️ 1
    域名早熟?
    GrahamCloud
        45
    GrahamCloud  
    OP
       2016-12-12 17:42:42 +08:00
    @xvx 晚熟,晚熟。
    mingyun
        46
    mingyun  
       2016-12-12 23:27:15 +08:00
    厉害了我的哥,赶紧去看看
    baiyi
        47
    baiyi  
       2016-12-14 14:35:22 +08:00   ❤️ 1
    下回节点能放在推广吗
    9hills
        48
    9hills  
       2016-12-14 14:48:53 +08:00   ❤️ 1
    试试爬一下多看电子书,自己爬比较麻烦的是代理池、防抓取等还需要自己做
    GrahamCloud
        49
    GrahamCloud  
    OP
       2016-12-14 14:55:28 +08:00
    @baiyi 其实倒真不是推广,是诚心来探讨聊天来着。推广肯定会买广告位,现在产品不成熟还是求意见聊场景的阶段。
    baiyi
        50
    baiyi  
       2016-12-14 15:22:22 +08:00   ❤️ 1
    @GrahamCloud 嗯 加油做一个好产品!
    9hills
        51
    9hills  
       2016-12-14 15:34:36 +08:00   ❤️ 1
    失败了,这个失败都没有地方 debug 。。。

    就一个执行失败。。。我还是老老实实的用 scrapy 吧<_<
    hakulamatata
        52
    hakulamatata  
       2016-12-14 15:37:29 +08:00   ❤️ 1
    指哪爬哪能做到就已经能够很好了
    GrahamCloud
        53
    GrahamCloud  
    OP
       2016-12-14 17:19:38 +08:00
    @9hills 我去后台看下啥情况。求告知邮箱
    9hills
        54
    9hills  
       2016-12-14 17:26:37 +08:00   ❤️ 1
    GrahamCloud
        55
    GrahamCloud  
    OP
       2016-12-15 12:04:05 +08:00
    @9hills 为了易用, debug 暂时不能给使用者,现在只能我们尽量帮 debug
    GrahamCloud
        56
    GrahamCloud  
    OP
       2016-12-15 12:07:33 +08:00
    @hakulamatata 产品上问题还特别特别多
    GrahamCloud
        57
    GrahamCloud  
    OP
       2016-12-15 12:07:56 +08:00
    @hakulamatata 看哪不好随时说。
    haigeek
        58
    haigeek  
       2016-12-16 15:40:30 +08:00   ❤️ 1
    没人试试高校的教务管理系统吗? aspx 页面,某果,界面是空白的。
    GrahamCloud
        59
    GrahamCloud  
    OP
       2016-12-16 16:01:18 +08:00
    @haigeek 求告知网址!
    haigeek
        60
    haigeek  
       2016-12-16 16:45:13 +08:00   ❤️ 1
    @GrahamCloud http://kmustjwcxk1.kmust.edu.cn/jwweb/ 这个是登录地址,是需要账户和密码的。
    http://kmustjwcxk1.kmust.edu.cn/jwweb/MAINFRM.aspx 这个是登录上去的 但是我怕你还是打不开 但是你看后缀是 aspx 的,在页面直接是没有右键选项的。这个管理系统是青果,似乎国内用的也不少,听说是便宜。可以根据信息参考下。
    iammapping
        61
    iammapping  
       2016-12-16 16:47:12 +08:00   ❤️ 1
    能不能设置规则,爬完列表下钻到详细页爬其他信息
    GrahamCloud
        62
    GrahamCloud  
    OP
       2016-12-16 17:33:46 +08:00
    @iammapping 正在努力搞这个功能。
    GrahamCloud
        63
    GrahamCloud  
    OP
       2016-12-16 17:34:22 +08:00
    @haigeek 太感谢了!求加微信: Zaoshuio
    demov2
        64
    demov2  
       2016-12-23 09:43:04 +08:00   ❤️ 1
    以前有一个国外的网站提供一样的服务,后来被收购了。。就没有服务了。。体验很不错。试用一下~
    isb
        65
    isb  
       2016-12-26 12:42:29 +08:00   ❤️ 1
    试着爬链家十个页面。。不知道为什么快十分钟了还是在执行任务中。。。

    任务能否有个进度条。。

    还有可否增加终止任务??
    siknet
        66
    siknet  
       2016-12-26 12:43:14 +08:00   ❤️ 1
    恕我无理,这个东西和火车头之类的相比有什么优点?可视化吗?实际操作试了一下,好像不是很利啊。

    比如 http://videos.yizhansou.com/这个站,点选下面的剧集会连上面的置顶剧集一起选择,这个怎么解。。。
    RyuZheng
        67
    RyuZheng  
       2016-12-26 13:28:33 +08:00   ❤️ 1
    试了一下,似乎还不太行,尝试的网站是国家食品药物监管局
    http://app2.sfda.gov.cn/datasearchp/gzcxSearch.do
    就想爬一下这些列表。
    GrahamCloud
        68
    GrahamCloud  
    OP
       2016-12-28 16:26:11 +08:00
    @isb 这个提议非常好
    GrahamCloud
        69
    GrahamCloud  
    OP
       2016-12-28 16:26:50 +08:00
    @siknet 现在这个站点进去没东西,现在智能识别问题是还有,谢谢发现这个问题
    GrahamCloud
        70
    GrahamCloud  
    OP
       2016-12-28 16:45:49 +08:00
    @RyuZheng 这个会作为重点帮你搞定
    ivvei
        71
    ivvei  
       2016-12-28 17:12:07 +08:00   ❤️ 1
    多久才能出结果…… 随便扔了个页面地址过去,十几分钟了还在“分析页面”中……
    GrahamCloud
        72
    GrahamCloud  
    OP
       2016-12-28 18:12:15 +08:00
    @ivvei 应该是几秒钟就该分析好了,是什么网站。
    siknet
        73
    siknet  
       2016-12-28 19:19:13 +08:00   ❤️ 1
    @GrahamCloud http://videos.yizhansou.com/
    这个链接,之前论坛没断好 url 。
    ivvei
        74
    ivvei  
       2016-12-29 09:58:52 +08:00   ❤️ 1
    @GrahamCloud http://www.zjsgat.gov.cn/jwzx/jsyw/index_1.html 这个,浙江省公安厅新闻页
    ivvei
        75
    ivvei  
       2016-12-29 10:08:52 +08:00   ❤️ 1
    @GrahamCloud 今天试了下,倒是可以出结果了。不知道是不是昨天网络问题……
    GrahamCloud
        76
    GrahamCloud  
    OP
       2016-12-29 12:45:21 +08:00
    @ivvei 昨天有一段时间是出现了网络问题,嗯。
    GrahamCloud
        77
    GrahamCloud  
    OP
       2016-12-29 12:45:48 +08:00
    @ivvei 这个网站需要的数据,你看都能按你要求下来不。
    ivvei
        78
    ivvei  
       2016-12-29 16:18:58 +08:00   ❤️ 1
    @GrahamCloud 还不错。虽然有小部分错乱,但是我要的数据还是取到了的。要是能支持翻页就好了。
    GrahamCloud
        79
    GrahamCloud  
    OP
       2016-12-29 18:14:26 +08:00
    @ivvei 翻页是支持的,在你的控制台地址设置里面。
    isnowify
        80
    isnowify  
       2017-02-06 12:40:08 +08:00 via Android   ❤️ 1
    很赞!
    cxl008
        81
    cxl008  
       2017-02-06 12:54:23 +08:00   ❤️ 1
    坐等开源
    bozong
        82
    bozong  
       2017-02-06 13:01:19 +08:00   ❤️ 1
    @wshedu #9 爬过企业信息吗
    haoxuexiaoyao
        83
    haoxuexiaoyao  
       2017-02-06 13:28:02 +08:00   ❤️ 1
    这个怎么用呢 爬的数据能自己保存到数据库么
    haoxuexiaoyao
        84
    haoxuexiaoyao  
       2017-02-06 13:30:04 +08:00   ❤️ 1
    一直提示链接超时
    firldlove
        85
    firldlove  
       2017-02-06 14:11:48 +08:00   ❤️ 1
    刚刚用 https://www.v2ex.com/ 试了一下,结果是 ERR_CONNECTION_RESET
    ELLIA
        86
    ELLIA  
       2017-02-06 14:13:31 +08:00   ❤️ 1
    一直出错啊~
    GrahamCloud
        87
    GrahamCloud  
    OP
       2017-02-06 14:34:29 +08:00
    @haoxuexiaoyao
    @firldlove
    @ELLIA 感谢提出问题,正在紧张处理了。
    GrahamCloud
        88
    GrahamCloud  
    OP
       2017-02-06 14:34:49 +08:00
    @haoxuexiaoyao 爬的数据可以保存到数据库
    GrahamCloud
        89
    GrahamCloud  
    OP
       2017-02-06 14:37:17 +08:00
    @isnowify 谢谢支持!
    GrahamCloud
        90
    GrahamCloud  
    OP
       2017-02-06 14:37:43 +08:00
    @cxl008 一直在上新功能,估计可预见的时间不会开源
    isnowify
        91
    isnowify  
       2017-02-06 14:42:51 +08:00 via Android   ❤️ 1
    @GrahamCloud 如果可以批量爬就更好了 比如某个成绩查询页面 直接枚举批量 post 准考证号得到结果
    lwd2136
        92
    lwd2136  
       2017-02-06 15:14:18 +08:00   ❤️ 1
    ELLIA
        93
    ELLIA  
       2017-02-06 15:15:34 +08:00   ❤️ 1
    嗯,现在好像能用了……
    ybh37
        94
    ybh37  
       2017-02-06 15:25:48 +08:00   ❤️ 1
    试了一下 百度新闻,失败 4 次
    难道我姿势不对?
    sphawkcn
        95
    sphawkcn  
       2017-02-06 15:42:30 +08:00   ❤️ 1
    @GrahamCloud 想爬取 http://xueshu.baidu.com/u/paperhelp/ 这个页面的“待应助” 下面的 “等待应助” 这个子标签页下的每一栏的文题。发现没法点击“等待应助” ,没法点进去。
    ELLIA
        96
    ELLIA  
       2017-02-06 15:43:06 +08:00   ❤️ 1
    @ybh37 我这边试了别的,也都是出错
    GrahamCloud
        97
    GrahamCloud  
    OP
       2017-02-06 17:57:06 +08:00
    @isnowify 这个功能马上就会上
    GrahamCloud
        98
    GrahamCloud  
    OP
       2017-02-06 17:57:52 +08:00
    @lwd2136
    @ybh37 今天负载异常高,正在努力扩容。
    GrahamCloud
        99
    GrahamCloud  
    OP
       2017-02-06 17:58:55 +08:00
    @sphawkcn 这个分页功能这一版还不支持,之后的一版会有改进。欢迎加 微信: Zaoshuio
    ELLIA
        100
    ELLIA  
       2017-02-07 13:22:04 +08:00   ❤️ 1
    今天有数据了,不过有几个问题,第一就是只会爬一页,如果需要第二页我得手动加入网址。
    其次是目前只支持定时一天爬一次是吗?还是未来也这样。

    最后就是我设了邮箱,但是没有收到邮件……
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1002 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 21:56 · PVG 05:56 · LAX 14:56 · JFK 17:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.