V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
wyx
V2EX  ›  分享创造

一个好玩的想法:你提交网址,我帮你抓成图片 :P

  •  
  •   wyx · 2016-06-04 23:14:44 +08:00 · 6291 次点击
    这是一个创建于 3101 天前的主题,其中的信息可能已经有所发展或是发生改变。
    网址: http://106.187.90.126:10000/

    用法:输入 douban.com 点击 go
    骚等几秒钟,就会把网页抓成图片给你下载

    亲们,测试服务器,别给玩坏了
    第 1 条附言  ·  2016-06-05 17:40:11 +08:00
    截止现在,本帖子有近千人查看,已经生成了 192 张图片,这还是在 php 跑了个单进程的自带服务器( php -S )下取得的成绩。

    为了答谢大家厚爱,我刚刚配置了下 apache ,终于可以并发的访问了 :P
    第 2 条附言  ·  2016-06-14 10:17:06 +08:00
    刚刚我看了下,已经生成了 825 张图片了,如果能破 1000 ,我就再完善一波
    51 条回复    2016-07-01 18:01:11 +08:00
    DoraJDJ
        1
    DoraJDJ  
       2016-06-04 23:17:52 +08:00 via Android
    也就是网页截图吗?
    wyx
        2
    wyx  
    OP
       2016-06-04 23:19:13 +08:00
    @DoraJDJ 对的,这几分钟好几个人在玩了
    aeshfawre
        3
    aeshfawre  
       2016-06-04 23:20:17 +08:00
    用的是 phantomjs 吧
    wdlth
        4
    wdlth  
       2016-06-04 23:25:56 +08:00
    好像没过滤它自己的地址,提交后没返回……
    wyx
        5
    wyx  
    OP
       2016-06-04 23:27:15 +08:00
    @wdlth 5 分钟写的几行程序而已,没考虑那么多啊...
    XiaoxiaoPu
        6
    XiaoxiaoPu  
       2016-06-04 23:32:23 +08:00
    看起来是用这个做的? https://www.npmjs.com/package/wkhtmltoimage
    xspoco
        7
    xspoco  
       2016-06-04 23:35:45 +08:00
    挂了吧- -
    XiaoxiaoPu
        8
    XiaoxiaoPu  
       2016-06-04 23:35:53 +08:00
    @XiaoxiaoPu 不对,这只是一个 wrapper ,应该是调用的这个 http://wkhtmltopdf.org/,去研究一发
    brucewzp
        9
    brucewzp  
       2016-06-04 23:37:35 +08:00
    不支持中文域名啊?
    JohnLou
        10
    JohnLou  
       2016-06-04 23:37:40 +08:00
    这什么垃圾服务器。
    noe132
        11
    noe132  
       2016-06-04 23:46:52 +08:00
    下载速度比 56k 拨号还慢。。。
    wyx
        12
    wyx  
    OP
       2016-06-04 23:47:44 +08:00
    @xspoco @JohnLou 用的 linode 家的,我是用 php -S 跑了个进程在运行,所以速度肯定是垃圾
    notgod
        13
    notgod  
       2016-06-04 23:53:55 +08:00 via iPhone
    几百年前的东西了,就是网页截图,国外很多,国内也有,用处不大,这个后来大部分转换为调试类工具,用 phantomjs 。然后设置 ua 查看网站页面在各个浏览器的下的显示效果, 这个东西商业化前景不大,

    这个如果非母语系统 截非母语的语系网页 会乱码
    要安装配套的字体库 才可以正常显示
    misty8873
        14
    misty8873  
       2016-06-04 23:54:26 +08:00 via iPhone
    虽然慢的垃圾,还是想看看效果,
    notgod
        15
    notgod  
       2016-06-04 23:55:51 +08:00 via iPhone
    另外 linode 日本在大陆基本全军覆没了 干扰太厉害
    现象是 5 分钟被 rest 一次网络 IP 全国打不开

    换达拉斯的吧
    Hello1995
        16
    Hello1995  
       2016-06-04 23:56:48 +08:00 via Android
    第一反应是可以借此不使用自己的 IP 访问一些静态页面…
    wyx
        17
    wyx  
    OP
       2016-06-05 00:11:19 +08:00
    @notgod 谢谢提醒哦,顺手写个小程序好玩而已,我考虑能不能写成定时任务自动帮我抓某个网页保存下来,比如 googe doodle 这类好玩的东西
    wyx
        18
    wyx  
    OP
       2016-06-05 00:12:01 +08:00
    @Hello1995 不能翻墙的时候可能可以用这个来 google 吧我觉得
    qianmeng
        19
    qianmeng  
       2016-06-05 09:11:17 +08:00 via Android
    t66y.com 可惜太慢了
    wyx
        20
    wyx  
    OP
       2016-06-05 17:40:49 +08:00
    @qianmeng 是啊,太慢了。网站内容还是挺丰富
    hiroya
        21
    hiroya  
       2016-06-05 22:23:04 +08:00 via iPad
    好像谷歌自带这个功能……
    jayzhong
        22
    jayzhong  
       2016-06-06 12:57:33 +08:00
    用什么程序解析的 js 啊
    wujunze
        23
    wujunze  
       2016-06-06 15:00:38 +08:00
    楼主 方便把代码放出来吗? 参考一下
    wyx
        24
    wyx  
    OP
       2016-06-06 15:10:20 +08:00
    mcfog
        25
    mcfog  
       2016-06-06 17:12:44 +08:00
    jedyu
        26
    jedyu  
       2016-06-06 17:16:23 +08:00
    t66y 乱码
    MangozZ
        27
    MangozZ  
       2016-06-07 09:03:30 +08:00
    异步加载好像不行。
    试了下淘宝, 抓不到。
    mclxly
        28
    mclxly  
       2016-06-07 09:05:01 +08:00
    LZ 试试 www.jd.com

    wkhtmltoimage 对于动态加载的内容有点问题。
    wyx
        29
    wyx  
    OP
       2016-06-07 10:17:07 +08:00
    @MangozZ @mclxly 是有问题,有好的解决方案吗?
    yangxiaoluck
        30
    yangxiaoluck  
       2016-06-07 11:20:13 +08:00
    js 动态渲染有问题
    hl
        31
    hl  
       2016-06-07 14:15:00 +08:00
    linode 日本线路
    ubuntu4.16
    Apache/2.4.7
    PHP/5.5.9-1
    mysql 5.7.12 端口 32776
    80 端口首页博客是 https://github.com/Rand01ph/xieda
    wyx
        32
    wyx  
    OP
       2016-06-07 17:49:36 +08:00
    @hl 没错
    Rico
        33
    Rico  
       2016-06-08 11:21:29 +08:00
    对于禁外网的公司这个有用处
    直接发一份 url 到公司邮件(邮件内外互通)然后自动回复网页截图
    wyx
        34
    wyx  
    OP
       2016-06-08 11:42:32 +08:00
    @Rico 真是惨
    popu111
        35
    popu111  
       2016-06-08 13:30:31 +08:00 via Android
    @hl 够闲的 XD
    woaitqs
        36
    woaitqs  
       2016-06-08 17:19:46 +08:00
    试了下, http://www.woaitqs.cc 为啥下载下来的图片是 0 字节...
    tanteng
        37
    tanteng  
       2016-06-08 18:33:06 +08:00
    抓的网页样式可能和看到的不一致,这个你看怎么调整

    http://www.tanteng.me
    wyx
        38
    wyx  
    OP
       2016-06-08 20:34:53 +08:00
    @tanteng 是不是不兼容啊。。。
    fhefh
        39
    fhefh  
       2016-06-11 00:27:05 +08:00
    wyx
        40
    wyx  
    OP
       2016-06-11 12:23:45 +08:00
    @fhefh 要是生成的图片有幸能到 1000 张,我也做个类似的网站。
    bigwahaha
        41
    bigwahaha  
       2016-06-12 18:27:36 +08:00
    有点意思
    workaholic
        42
    workaholic  
       2016-06-13 15:03:20 +08:00
    速度还可以
    ma125125t
        43
    ma125125t  
       2016-06-14 17:39:13 +08:00
    有啥意义?
    JoyNeop
        44
    JoyNeop  
       2016-06-15 13:33:59 +08:00
    楼主的 viewport 尺寸很诡异呀。。。
    MyFaith
        45
    MyFaith  
       2016-06-15 14:43:39 +08:00
    ![]( https://ooo.0o0.ooo/2016/06/15/5760fae689cb5.png
    )
    wyx
        46
    wyx  
    OP
       2016-06-15 16:14:41 +08:00
    @JoyNeop 922 了
    sqd
        47
    sqd  
       2016-06-17 09:09:53 +08:00
    都是 0 字节, 什么鬼
    wyx
        48
    wyx  
    OP
       2016-06-17 11:33:51 +08:00
    @sqd 服务器上生成了一个 13G 的文件,直接把我的硬盘占满了,所以导致有一批生成的图片都是 0 字节。
    dengdaxu
        49
    dengdaxu  
       2016-06-17 12:03:21 +08:00
    @wyx 蛮有意思的 不过这个技术很早就有了
    ibiner
        50
    ibiner  
       2016-06-19 16:02:31 +08:00
    这个网站也可以直接生产截图:
    http://sitevaluefree.com/

    使用的是 phantomjs. 对于中文只需要安装对应的字体包就行。自己可以自定义截图尺寸,可以做成 API 。 phantomjs 官网有介绍的。
    bluetom
        51
    bluetom  
       2016-07-01 18:01:11 +08:00
    casper
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2615 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 06:55 · PVG 14:55 · LAX 22:55 · JFK 01:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.