V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Sponsored by
LinkedIn
2000 个不用坐班的远程好工作在召唤你 · 弹性上班不打卡,工作和生活都能拥有
2000 个不用坐班的全球远程工作,帮助 V2EX 的小伙伴开启全新的工作方式。
Promoted by LinkedIn
wudaown
V2EX  ›  程序员

yande.re 图站爬虫一枚

  •  1
     
  •   wudaown · 2015-06-20 01:53:58 +08:00 · 13925 次点击
    这是一个创建于 2653 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有朋友想收集yande.re里的图片
    于是现学撸了一个爬虫出来
    大家来拍吧
    https://github.com/wudaown/yandeDL

    未满18岁慎用
    
    第 1 条附言  ·  2015-06-20 14:22:24 +08:00
    刚才在看K站的结构.... 发现程序还能在简化...
    浪费了很多很多时间
    在重写
    22 条回复    2015-06-21 22:11:59 +08:00
    zonghua
        1
    zonghua  
       2015-06-20 02:20:39 +08:00 via iPhone
    python做爬虫有什么加成
    Imyssed
        2
    Imyssed  
       2015-06-20 03:19:48 +08:00
    其实我比较好奇Y站和K站是不是一个系统啊...好像的说
    wudaown
        3
    wudaown  
    OP
       2015-06-20 03:45:58 +08:00
    貌似是的.. y站以前不叫Y站.. 换过名字了
    wudaown
        4
    wudaown  
    OP
       2015-06-20 03:47:54 +08:00   ❤️ 1
    @Imyssed 去K站看了一眼.. 结构都差不多 只要替换几个地方就变成K站爬虫了... 233
    yeah2109
        5
    yeah2109  
       2015-06-20 04:12:49 +08:00
    输入关键词以后没有进度提示吗?
    yeah2109
        6
    yeah2109  
       2015-06-20 04:14:31 +08:00
    @wudaown 那就在做个k站的吧233
    看到提示了,好东西
    yeah2109
        7
    yeah2109  
       2015-06-20 06:22:27 +08:00
    我输入了一定的页数,下载了一段时间后
    Traceback (most recent call last):
    File "yandeDL.py", line 61, in <module>
    main()
    File "yandeDL.py", line 55, in main
    MultiPageDownload()
    File "yandeDL.py", line 27, in MultiPageDownload
    coreDL(crawler.getSource(next_page_url))
    File "yandeDL.py", line 14, in coreDL
    crawler.getImg(dLink, filename_list)
    File "/root/yandedl/crawler.py", line 123, in getImg
    urllib.request.urlretrieve(x[2:-2], filename_list[count])
    File "/usr/local/lib/python3.4/urllib/request.py", line 219, in urlretrieve
    % (read, size), result)
    urllib.error.ContentTooShortError: <urlopen error retrieval incomplete: got only 196325 out of 255091 bytes>
    这么显示然后就停止了,是什么原因?
    hansnow
        8
    hansnow  
       2015-06-20 08:45:26 +08:00
    问个和主题不相关的问题哈,楼主帖子里的红色框框是怎么输入的呢?
    anthonyeef
        9
    anthonyeef  
       2015-06-20 10:13:07 +08:00
    @hansnow markdown自带的吧
    wudaown
        10
    wudaown  
    OP
       2015-06-20 13:35:24 +08:00
    @yeah2109 你下载了多少页 用的那个tag? 我自己试试看
    wudaown
        11
    wudaown  
    OP
       2015-06-20 15:49:51 +08:00
    shuzhiqian
        12
    shuzhiqian  
       2015-06-20 15:53:57 +08:00
    iOS开发技术分享群:429196500 欢迎加入!
    dlc
        13
    dlc  
       2015-06-20 20:24:37 +08:00
    楼主, 为什么我安装完python3.4.0 后双击yandeDL.py打不开。
    moenayuki
        14
    moenayuki  
       2015-06-20 21:27:30 +08:00
    wudaown
        15
    wudaown  
    OP
       2015-06-20 21:42:40 +08:00
    @moenayuki 我刚才发现有API的.. 准备重写了
    wudaown
        16
    wudaown  
    OP
       2015-06-20 21:43:01 +08:00
    @dlc 能多说一点么... 我在windows测试可以问题......
    yeah2109
        17
    yeah2109  
       2015-06-21 09:38:46 +08:00
    @wudaown 关键词 “thighhighs”或者“no-bra” 页数50
    dlc
        18
    dlc  
       2015-06-21 10:12:43 +08:00
    @wudaown 双击yandeDL.py一闪而过,在cmd用 python yandeDL.py 也打不开。
    ghostxdy
        19
    ghostxdy  
       2015-06-21 14:17:23 +08:00 via Android
    我特的来回复一下,我收藏了
    yeah2109
        20
    yeah2109  
       2015-06-21 15:21:51 +08:00
    @dlc python3 不是python
    wudaown
        21
    wudaown  
    OP
       2015-06-21 19:17:16 +08:00 via iPhone
    @dlc cmd运行的话要把python加入到path
    双击是可以的 可能你版本错了
    djyde
        22
    djyde  
       2015-06-21 22:11:59 +08:00
    yande 是 h漫版的 hackernews?
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1963 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 44ms · UTC 16:44 · PVG 00:44 · LAX 09:44 · JFK 12:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.