网易的产品给我的感觉亲和力还挺好的,网易新闻连 robots.txt 都没有,默认允许所有爬虫的爬取行为。今天爬取网易 163 邮箱,却着实碰到了一个硬茬,邮件列表的 div 一直获取不到,我自己分析了两种可能:
1
takemefly 2019-03-15 13:28:37 +08:00
应该是 JS 加载。有前端知识的话,可以了解这个开源抓取器 https://gitee.com/golddata/golddata-spider,里面提到了一个免费社区板试试。
|
3
krixaar 2019-03-15 15:43:54 +08:00
爬邮件内容的话,应该是只能爬自己的邮箱,如果是爬自己的邮箱,为啥不直接把邮件 IMAP 下来……
从 126 看是一个到 mail(dot)126(dot)com/js6/s?sid=(cookie:Coremail.sid)&func=mbox:listMessages&deftabclick=t3 的 xhr,POST 一个特定格式的 xml,然后直接回一个 json 的邮件完整列表。 |
6
locoz 2019-03-15 22:36:31 +08:00 via Android
直接用协议不是方便很多吗
|