V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
shaoyijiong
V2EX  ›  问与答

有没有什么方便的网页抓取工具

  •  
  •   shaoyijiong · 2020-11-17 10:18:46 +08:00 · 1608 次点击
    这是一个创建于 1471 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在有个需求, 需要把类似的如下两个外部链接转化成公司域名的短链接, 并且加入埋点消息, 现在都是前端手动转,但是页面太多, 人工太浪费时间, 有没有方便的工具来直接转成 html 页面

    https://csydtg.1tk7z.com/r/ee/21066.html

    https://csydtg.1tk7z.com/s/11/3148/52fd0.html?uid=9160000000810

    请忽视页面内容,合作方没办法

    8 条回复    2021-02-17 08:17:21 +08:00
    shaoyijiong
        1
    shaoyijiong  
    OP
       2020-11-17 10:19:58 +08:00
    最好能够输入链接自动跑成 html 的那种
    lllllliu
        2
    lllllliu  
       2020-11-17 11:07:04 +08:00
    。。写个爬虫哦。或者右键另存( w
    locoz
        3
    locoz  
       2020-11-17 11:15:14 +08:00 via Android
    单纯保存页面 HTML 的话,可以直接用八爪鱼之类的傻瓜式爬虫工具或者 fdm 之类的下载器解决。

    但是你们这个需求有点奇怪啊,为啥不直接做个跳转页,然后在跳转页里面加上埋点?反正你们都要弄短链接了。
    shaoyijiong
        4
    shaoyijiong  
    OP
       2020-11-17 11:18:20 +08:00
    @locoz 如果只监听点击是可以 , 但是页面里面有下载链接 要获取下载数据量
    siknet
        5
    siknet  
       2020-11-17 11:18:38 +08:00 via Android
    没听懂,需要下载页面后加入内容然后上传到自己服务器上?
    locoz
        6
    locoz  
       2020-11-17 12:14:55 +08:00
    @shaoyijiong #4 那直接用 Nginx 做个反代,然后往里插埋点?反正你们都要存别人页面下来了。
    locoz
        7
    locoz  
       2020-11-17 12:17:16 +08:00
    @shaoyijiong #4 用 ngx_http_substitutions_filter_module 提供的功能可以做到修改原页面中特定内容的效果,可以直接把下载链接那部分给加上埋点。
    qshu
        8
    qshu  
       2021-02-17 08:17:21 +08:00 via Android
    好家伙,我收到了骚扰短信,什么新春提现,附的连接就这,艹
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5430 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 07:29 · PVG 15:29 · LAX 23:29 · JFK 02:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.