V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
wisefree
V2EX  ›  Python

请教如何爬取简书某一时间段发帖

  •  
  •   wisefree · 2017-05-02 19:09:19 +08:00 · 2290 次点击
    这是一个创建于 2768 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我想爬取简书在某一时间段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13

    想尝试的思路如下:

    • 百度

      • 利用百度的 site 语法
      • 限定日期
      • 观察大约有 70 个帖子
    • Google

      • google 的 site 语法
      • 限定日期有 120 个帖子
      • 观察大约有 120 个帖子

    实现:用 Python 直接请求搜索的结果,然后把得到的网址重定向一下得到真正的简书网址,然后对真正的网址进行请求

    问题

    1. 用这种方法得到的结果是否靠谱?请问有更靠谱的方法吗?
    2. 用 Google 还是用百度呢?

    先谢谢各位大 V,:)

    10 条回复    2017-05-04 11:04:41 +08:00
    shaxiboy
        1
    shaxiboy  
       2017-05-02 19:19:27 +08:00
    我是进来学习的😁
    wisefree
        2
    wisefree  
    OP
       2017-05-02 19:20:27 +08:00
    @shaxiboy 欢迎,我也是来向大 V 学习的,:)
    sampeng
        3
    sampeng  
       2017-05-02 19:52:56 +08:00   ❤️ 1
    用搜索引擎并不靠谱。。会不停的重复。。。
    wisefree
        4
    wisefree  
    OP
       2017-05-02 19:58:33 +08:00
    @sampeng 谢谢回复。限定了时间还会不停地重复么?
    yuluofanchen
        5
    yuluofanchen  
       2017-05-03 08:17:54 +08:00 via iPhone   ❤️ 1
    用谷歌,但实际不是很准。
    sampeng
        6
    sampeng  
       2017-05-03 10:43:39 +08:00   ❤️ 1
    @wisefree 主要是爬虫复杂度会上升。。排序会变。。而且人家谷歌也有防机器人。
    有这经历研究这个不如直接去爬人家主站
    wisefree
        7
    wisefree  
    OP
       2017-05-03 11:04:48 +08:00 via Android
    @yuluofanchen 嗯嗯,我也只要一个大致的结果,
    wisefree
        8
    wisefree  
    OP
       2017-05-03 11:06:06 +08:00 via Android
    @sampeng 爬主站,难度太大,因为好像只有把所有的帖子都爬下来,才能分析某段时间的发帖量
    sampeng
        9
    sampeng  
       2017-05-03 11:15:12 +08:00   ❤️ 1
    如果只是需要一个大致的结果,所有的帖子的响应 header 头上都有 Date 字段。刚去看了一眼,都是和发帖时间对应的。那么问题就简化成,扫描所有帖子。直 请求过去。看看 Date 头。
    再简化一下,你如何获得所有帖子的列表。这个比你纠结用搜索引擎应该难度更小一点吧。。
    wisefree
        10
    wisefree  
    OP
       2017-05-04 11:04:41 +08:00
    @sampeng 谢谢提供思路!对于获得所有帖子列表,有什么好的思路么?

    我目前想的是通过几十个热门专题,对专题内的所有帖子进行爬取,但是感觉只能爬取到网站少部分的帖子
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2637 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 10:51 · PVG 18:51 · LAX 02:51 · JFK 05:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.