V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xuanwu
V2EX  ›  问与答

有爬虫通过浏览器加载页面后储存到本地实现的吗? 性能如何? (本机测只有 3 页/秒)

  •  
  •   xuanwu · 2018-09-14 14:29:30 +08:00 · 1058 次点击
    这是一个创建于 2262 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如这样的 https://github.com/program-in-chinese/ChromeCrawlerWildSpider ?

    当时测了大概只有 3 页 /秒, 不管开 10 个还是 80 个 tab. 感觉好处也有, 比如只要浏览器能打开的页面它都能抓.

    2 条回复    2018-09-14 14:39:28 +08:00
    ericv
        1
    ericv  
       2018-09-14 14:35:19 +08:00   ❤️ 1
    直接 node 拉请求,然后保存所有请求就可以吧,我做的性能没仔细测,但是肯定省去了浏览器渲染的那一步,不知是不是你要问的
    xuanwu
        2
    xuanwu  
    OP
       2018-09-14 14:39:28 +08:00
    对 浏览器渲染很耗资源. 当时好像看到 headless browser 都有这那的问题(页面内容不完全加载等等), 所以直接试了用 Chrome 渲染.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2794 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 13:15 · PVG 21:15 · LAX 05:15 · JFK 08:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.