konachan 图站爬虫一枚

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

HexHub

HexHub，一站式SSH、Docker、数据库连接管理工具，支持多种主流数据库、多窗口分屏、智能SQL编辑、极速数据处理、批量命令、云端同步，支持SSH跳板机、命令广播、历史命令、SFTP多端文件互传。

去下载

Promoted by xiwh

PRO

这是一个创建于 3692 天前的主题，其中的信息可能已经有所发展或是发生改变。

应要求顺便把K站爬虫也撸出来了...

https://github.com/wudaown/konachanDL

yande.re 爬虫参考另外一个帖子

https://www.v2ex.com/t/199965

PS: 大家多拍拍想进步不知道怎么搞

爬虫

konachan

yande.re

20 条回复 • 2015-06-21 01:31:23 +08:00

ericls

2015-06-20 16:41:56 +08:00

既然都用了 Python3 了

如果真的是「爬虫」，也应该用aiohttp之类的异步吧

n37r06u3

2015-06-20 18:05:43 +08:00

都是漫黄站啊

binux

2015-06-20 18:27:27 +08:00

人家明明有 API，你非得解析页面
http://konachan.com/post.json

wudaown

2015-06-20 18:55:42 +08:00

@binux 新手完全不会.. 能简单说一下怎么使用api么.. 想针对API在修改一下

binux

2015-06-20 18:57:59 +08:00

@wudaown JSON

wudaown

2015-06-20 20:16:50 +08:00

@binux 是通过python的json库么？

wudaown

2015-06-20 21:25:05 +08:00

@binux 发现每个页面都有json... 那还要解析每一页的json效率会差很多吗？

xupefei

2015-06-20 21:27:19 +08:00

@wudaown 给人家服务器带来的压力高了不少。

wudaown

2015-06-20 21:41:59 +08:00

@xupefei 这样啊~ 谢谢.. 那我的想法对吗？打开对应页面的json然后解析？

binux

2015-06-20 22:15:45 +08:00 via Android

@wudaown 你有什么是需要打开对应页面才能拿到的吗？

wudaown

2015-06-20 22:21:43 +08:00

@binux http://konachan.com/post.json?page=2&tags=yuuki_asuna 是第二页的json
http://konachan.com/post.json?page=1&tags=yuuki_asuna 是第一页的json ...
分析完一页不是要分析第二页么..

binux

2015-06-20 22:24:40 +08:00 via Android

@wudaown 如果你要第二页上的东西，这不是必须的吗？

wudaown

2015-06-20 22:32:55 +08:00

@binux 那貌似和解析html页面差不多啊....

Lucius

2015-06-20 22:43:01 +08:00

@wudaown 效率差很多吧。你要爬的只是内容，解析HTML是把整个页面给load了

wudaown

2015-06-20 23:12:39 +08:00

@Lucius 可是打开json不也是打开整个么？

Lucius

2015-06-20 23:56:26 +08:00

@wudaown ... json 已经直接给了你爬完后的数据。

evlos

2015-06-21 00:00:11 +08:00

@wudaown API 格式一般是永久固定的，HTML 只要页面一改版就跪了。

wudaown

2015-06-21 00:14:14 +08:00

@Lucius 就是不用分析一眼就看出来需要什么...

KyoHiroki

2015-06-21 01:26:46 +08:00

1.html页面如果有用js生成的动态内容，你是爬不到的，json没有这个问题；
2.渲染html页面对服务器的负担比json大；
3.html页面可能会经常修改，不易维护。

wudaown

2015-06-21 01:31:23 +08:00

@KyoHiroki 知道的更多了~~ 继续学习