不得不感慨二次元才是第一生产力,废寝忘食的各种查资料,总算是写完,能够正常运行了。
整体功能比较简单(简陋)。就是抓取热榜列表页,遍历提取其中的 illust_id,并组织成对应的 pixiv 详情页,在详情页中抽取出大图的地址,通过 ImagePipeline 来下载图片。 PixivMetaPipline 实现了 Item 的本地存储。
最后生成的目录结构如下:
daily
├── 20150901
│ ├── full
│ │ ├──97b4941fjw1e44ghlhrwdj20tk15o7r7.jpg
│ │ ├──......
│ └── meta.json
weekly
├── 20150901
monthly
├── 20150901
.....
GITHUB 地址: pixiv_crawl
1
lidonghao 2015-09-29 16:45:35 +08:00
up~
|
2
TheC 2015-09-29 16:57:45 +08:00 2
|
4
Starduster 2015-09-29 17:25:21 +08:00
唔其实我也是想在学 Python 的时候做 P 站爬虫的 233 感觉已经看过很多人做了
|
5
cdxem713 OP @Starduster 需求驱动(・ω・)ノ
|
7
nikubenki 2015-09-29 18:47:54 +08:00 via iPhone
可不可以爬不在链接里的图呢
|
10
LancerComet 2015-09-29 19:44:20 +08:00
@TheC B 站基佬?
|
11
Velacielad 2015-09-29 20:26:46 +08:00
hhhh 我一开始学爬虫第一个程序也是爬 P 站日榜
|
12
cdxem713 OP @Velacielad ^_^
|
13
nccer 2015-09-29 21:18:12 +08:00
我的第一个爬虫是爬我们学校的成绩表和个人信息
|
14
deadEgg 2015-09-30 08:36:37 +08:00
赞!
|
15
TheC 2015-09-30 14:27:25 +08:00
|