V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
c0py7hat
V2EX  ›  程序员

Macos 上有没有好用的图形化采集工具/爬虫

  •  
  •   c0py7hat · 2020-04-15 13:05:46 +08:00 · 3201 次点击
    这是一个创建于 1702 天前的主题,其中的信息可能已经有所发展或是发生改变。
    临时需要爬点东西,python 懂得很少很少,因为不怎么用到爬虫之类的

    临时需要爬取点东西,直接就是保存当前页面源码为 html 格式到本地就行

    我看火车头没有 mac 版本,后羿那玩意也得需要 py 还要钱,我的量比较大

    大概百万以上

    有么有大佬推荐下
    27 条回复    2020-04-16 12:17:11 +08:00
    airfling
        1
    airfling  
       2020-04-15 13:30:03 +08:00
    idm 你找下
    c0py7hat
        2
    c0py7hat  
    OP
       2020-04-15 13:34:12 +08:00
    @airfling 。。idm 也能爬取东西?
    neoblackcap
        3
    neoblackcap  
       2020-04-15 13:35:39 +08:00
    要不报个价?免费大概满足不了你,毕竟你都上百万了
    ostrichb
        4
    ostrichb  
       2020-04-15 13:36:50 +08:00 via Android
    idm 不是 Windows only?
    wolfan
        5
    wolfan  
       2020-04-15 13:37:10 +08:00 via Android
    pySpider 应该符合你的要求,就是到高版本 Python 支持不好。
    c0py7hat
        6
    c0py7hat  
    OP
       2020-04-15 14:11:30 +08:00
    @wolfan 正在看
    c0py7hat
        7
    c0py7hat  
    OP
       2020-04-15 14:12:04 +08:00
    @neoblackcap 我不懂这个价格,你说,我自己瞎写了个 py 脚本,但是没多线程啥的 速度太慢了
    siknet
        8
    siknet  
       2020-04-15 14:16:58 +08:00
    虚拟机搭个 WIN7 ?
    zdnyp
        9
    zdnyp  
       2020-04-15 14:17:38 +08:00
    上百万的数据,不知道用不用代-理,用代-理还要买。八爪鱼和弓箭手都有网页版的,就是你写规则,他来跑采集,量小貌似免费。
    huruwo
        10
    huruwo  
       2020-04-15 14:28:41 +08:00
    请个外包搞下 自己折腾时间成本太高了
    c0py7hat
        11
    c0py7hat  
    OP
       2020-04-15 14:57:33 +08:00
    @siknet 。。。吐血
    c0py7hat
        12
    c0py7hat  
    OP
       2020-04-15 14:58:10 +08:00
    @zdnyp 那估计不行 预计量 300w+
    c0py7hat
        13
    c0py7hat  
    OP
       2020-04-15 14:58:21 +08:00
    @huruwo 那估计不便宜。。
    yinzhili
        14
    yinzhili  
       2020-04-15 15:02:08 +08:00
    你装个 Win10 不就完了吗
    clemente0620
        15
    clemente0620  
       2020-04-15 15:08:55 +08:00
    报个价把
    c0py7hat
        16
    c0py7hat  
    OP
       2020-04-15 15:09:56 +08:00
    @clemente0620 我不懂这个,你说吧,加个多线程啥的 速度变快那种
    also24
        17
    also24  
       2020-04-15 15:17:50 +08:00 via Android
    wget -i url.txt 这样?
    also24
        18
    also24  
       2020-04-15 15:19:54 +08:00
    诶,没注意到还要多线程?
    那就 aria2c --max-concurrent-downloads=10 --input-file=download-list.txt 这样?

    如果还要套代理的话,买个隧道代理,自动切换多省心~
    c0py7hat
        19
    c0py7hat  
    OP
       2020-04-15 15:22:12 +08:00
    @also24 不是 我是自己瞎写了个 py 爬虫脚本,就是 requests 请求网页然后获取 response 的 content 保存到本地为 x.html 现在问题是速度太慢了 我不会弄那个什么多线程啥的
    vhysug01
        20
    vhysug01  
       2020-04-15 15:26:59 +08:00
    scrapy 入门一个下午就行,简单无脑。高级的你这种情况也不需要
    also24
        21
    also24  
       2020-04-15 15:29:32 +08:00
    @c0py7hat #19
    重点在于:
    1 、是否需要配置大量的请求参数
    2 、是否存在限制 IP 、链接时效性之类的


    如果没有太多限制的话,可以自己只写拆 URL 出来的那部分,然后把需要下载的页面的 URL 灌入 aria2c 的 RPC API 来添加任务,多线程的部分就交给 aria2c 来处理。


    如果确实涉及到比较多的流程需要敲代码来搞下载部分,那建议碰一下 aiohttp 这个库:
    https://docs.aiohttp.org/en/stable/
    wangyzj
        22
    wangyzj  
       2020-04-15 15:34:23 +08:00
    图形化?
    虚机搞 win10
    装个火车头
    c0py7hat
        23
    c0py7hat  
    OP
       2020-04-15 15:34:33 +08:00
    @also24 好的 多谢
    charlie21
        24
    charlie21  
       2020-04-15 17:11:26 +08:00 via iPhone
    爬虫无脑 wget
    tikazyq
        25
    tikazyq  
       2020-04-15 17:14:04 +08:00
    crawlab 的可配置爬虫了解一下?
    gen900
        26
    gen900  
       2020-04-15 21:54:53 +08:00 via iPhone
    curl 了解一下
    Cmdhelp
        27
    Cmdhelp  
       2020-04-16 12:17:11 +08:00
    python
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2371 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 15:33 · PVG 23:33 · LAX 07:33 · JFK 10:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.