V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ghmum
V2EX  ›  问与答

有哪些论坛能较好地学习、交流爬虫相关技术

  •  
  •   ghmum · 2021-07-30 18:20:28 +08:00 · 3542 次点击
    这是一个创建于 972 天前的主题,其中的信息可能已经有所发展或是发生改变。

    俺尝试自学爬虫,网络上的爬虫相关的教程或者书,逻辑基本都差不多:python 基础->request 和 respond 的简单认识->requests 库的介绍和简单实战->简单数据库介绍->简单介绍 cookie->简单介绍反反爬->最典型的那个爬虫框架(好久没用忘记名字了)的简单介绍和实战

    但是当自己想应用所学在自己的项目实践写一个签到时,一上来就感到很强的阻力,阻力主要来源于:

    • 现在反爬技术太多了,网络上的教程里的技术都太老旧了
    • 分析网页的请求时,请求里出现了加密信息时,完全不会分析
    • 刚开始甚至连 ssl 加密都过不了
    • 登录也恼火,连简单的验证码都很难搞(最简单的就是打码平台),感觉维持登录也搞不定:-(,有的网站登录简直变态
    • 想要下载网站里的媒体资源时,媒体资源是通过 js 动态生成的,看 js 的代码有点恼火。(之前在一个视频里一个可以追踪 js 里的调用和被调用的方法,感觉神奇极了)
    • 还有数不清的问题。。。

    故想请教一下各位大佬,有没有交流环境比较好的学习、交流爬虫相关技术的论坛,想认真学习一波

    或者有特别棒的教程、书之类的能推荐一波就更好啦

    俺一直有一个很小白的问题,就是常用的数据库吧(比如 MySQL 、Mongodb 之类的),方便直接存储媒体文件吗

    16 条回复    2021-08-03 02:31:47 +08:00
    christopheredwar
        1
    christopheredwar  
       2021-07-30 19:23:48 +08:00
    几乎没有,爬虫早就被培训班垄断了
    israinbow
        2
    israinbow  
       2021-07-30 22:53:19 +08:00   ❤️ 2
    数据库存媒体文件是自杀行为, 除非你的库又大又快.
    学爬虫不如学反爬虫, 了解了反爬虫原理才能钻漏洞去爬, 谓之知己知彼百爬百漏.
    同样插眼等一个社群......
    我先来: 真刑啊, 越来越有判头了.
    shilianmlxg
        3
    shilianmlxg  
       2021-07-31 00:19:28 +08:00 via iPhone
    想蹲个全场最佳。前端想学 python 不知道从哪里下口
    Zy143L
        4
    Zy143L  
       2021-07-31 01:33:50 +08:00 via Android
    爬虫写得好,牢饭吃的饱。
    kblacksheep
        5
    kblacksheep  
       2021-07-31 02:15:30 +08:00   ❤️ 1
    看来去牢里交流是最快的 doge
    nuistzhou
        6
    nuistzhou  
       2021-07-31 02:17:54 +08:00 via iPhone
    prison
    locoz
        7
    locoz  
       2021-07-31 07:28:39 +08:00   ❤️ 1
    先回答一下你的问题:

    爬虫领域的社区是有的,比如我们团队( NightTeam )搞的夜幕爬虫安全论坛 https://bbs.nightteam.com
    还有我们公众号的读者群、课程的学员群、团队成员自己搞的技术交流群的交流环境也都挺好,就是读者群平时会比较冷清一些,毕竟没什么人闲聊,进群管控也比较严格,不会有打广告的混进来发些有的没的。

    教程、书籍以及隐含的学习方向这方面问题的话,我已经重复回答太多次了,直接甩知乎链接你自己看吧:

    请问爬虫学哪些可以就业啊?- loco 的回答 - 知乎
    https://www.zhihu.com/question/460129002/answer/1894395065

    python 爬虫基础学完了,我真的能找到一份工作吗? - loco 的回答 - 知乎
    https://www.zhihu.com/question/407856161/answer/1351562789

    有没有关于图论的推荐书,爬虫和深度学习也可以? - loco 的回答 - 知乎
    https://www.zhihu.com/question/317802681/answer/1352294701

    至于使用数据库存媒体文件这种事情...除了 MongoDB 这种有特殊优化过的还行以外,其他的都不合适,而且数据库里要存也只能存一些小文件,存大的很影响速度。最佳选择实际上是结合对象存储操作,使用对象存储来存文件,数据库中只存一个文件 ID 用来关联对象存储中的文件,这样既能方便管理,又得到了高性能。

    简单使用时可以是直接 Docker 跑个 Minio 来提供对象存储,生产环境要高可靠的话就得多节点跑甚至是搞一套 ceph 或者直接用公有云的对象存储服务,具体可选方案很多,但它们基本都可以通过 S3 协议来操作,所以同时建议你了解一下 S3 相关知识( S3 是亚马逊云的对象存储服务,它的通信协议已经成了事实上的行业规范,现在的对象存储服务基本都会兼容 S3 的协议,只不过具体实现的功能有所差异而已)。

    ---

    然后说一下你碰到的这种情况:

    其实吧…你的情况是绝大多数做爬虫的人也同样碰到过的情况,因为根据我看过的几百份投向爬虫岗位的简历来看,绝大多数人的水平其实就处于你这个阶段上下,而且其中很多人即使三五年经验了也依然因为公司项目原因而没啥长进…

    这绝大多数人里,水平高一点的能会点 JS 逆向、手机端抓个包或者反编译看看代码,水平差一点的连 JS 逆向都不会,就只会 selenium 、pyppeteer 一把梭(大多数连写 JS 调原版的 puppeteer 都不会,只会用个问题一堆的 python 版本),面对现在的环境和企业招聘需求真的不太行。尤其是后者这种,企业没特殊需求的话招个这水平的人还真不如直接用傻瓜式爬虫工具,毕竟人家好歹自动处理完了反爬、能快速配好解析规则,而这水平的人基本也就只能做到这样了,可能做得还没工具快...

    这种情况,究其原因其实就是有太多 Python 相关自媒体、非真正做爬虫方向的人对爬虫领域的内容灌水过多,以及无良培训机构过多,导致爬虫领域的文章、书籍、付费课程等都充斥着大量仅限于这个阶段水平的内容,罕有更进一步的。再加上很多人学习方式真的很奇葩,只想得到解决具体网站或 APP 问题的“鱼”,而非解决问题所用到原理、技巧的“渔”,这就进一步加剧了拿简单网站或 APP 水内容的现象。

    我们团队( NightTeam )当初之所以组建,就是因为我们都看不下去这种情况,想聚集声量输出一些更具有实际价值的内容,以尽可能地改变这种情况。可惜的就是现在大家都比较忙,也没那么多时间运营,跟那些灌水的没法比,以至于这个主题发布到现在都这么长时间了,居然还没有一个人提到我们团队或团队成员发布和运营的东西...

    ---

    最后还是建议一下楼主和其他抱着同样问题点进这个主题的人,千万别想着只要有“鱼”就行而不学“渔”。我看到过很多水平不咋地的人,他们一看个偏思路、技巧、原理性质的内容就会觉得内容水,觉得只要不是教他怎么搞定某个具体的网站或 APP 就是没意义的内容,这种学习方式真的学不到啥...别人只要改动一点细节或者换个做法,原来学到的东西就废了,知其然而不知其所以然,有啥用?

    说白了,爬虫与反爬虫的本质和软件安全、网络安全是一样的,都是攻防对抗、思维碰撞,这种与人对抗较多的领域跟前后端、客户端开发这种实现功能就行的领域完全是两码事,思维、操作技巧和感觉才是根本,搞不清重点只会白交智商税还没啥长进。
    locoz
        8
    locoz  
       2021-07-31 07:29:20 +08:00
    @locoz #7 打错了,是 https://bbs.nightteam.cn
    locoz
        9
    locoz  
       2021-07-31 07:56:36 +08:00 via Android
    @shilianmlxg #3 学 Python 和学爬虫实际是两码事,爬虫不仅限于 Python 的。
    shilianmlxg
        10
    shilianmlxg  
       2021-07-31 08:49:07 +08:00 via iPhone
    @locoz 感觉都有种错觉了 感觉要学 py 。学 excel 批处理文件 教程视频是用的 py 。学 docker k8s 教程是用的 py 。学数据结构 教程是用的 py 。学算法 教程视频是 py 。感觉无处不在
    ch2
        11
    ch2  
       2021-07-31 12:12:39 +08:00
    当你有了极其强大的技术实力,是会去做爬虫还是钱更多而且不用担心法律风险的工作?
    反爬虫核心就是提高成本,让那些即使有能力突破反爬技术的人宁愿干别的也不来做爬虫
    learningman
        12
    learningman  
       2021-07-31 12:14:16 +08:00 via Android
    先把 js 学明白了吧,至少 webpack 编译过以后的东西勉勉强强能看得懂。
    ipwx
        13
    ipwx  
       2021-07-31 12:19:42 +08:00
    爬虫的关键不在爬虫,而是整个网络原理的掌握。从 TCP 到 HTTP 到 HTTPS 。并发还得学系统的一些东西。
    locoz
        14
    locoz  
       2021-07-31 12:44:25 +08:00 via Android
    @shilianmlxg #10 Python 本来就是一个难度不高的万金油语言啊,无处不在没啥问题。
    locoz
        15
    locoz  
       2021-07-31 13:03:32 +08:00 via Android
    @ipwx #13 对于爬虫而言,网络原理只是一部分,而且对于当下环境里的大多数场景而言不会需要用到特别深的东西…真正对于大多数人和职位的关键其实在于偏安全领域的逆向,没有逆向能力基本搞不定复杂需求。
    ericgui
        16
    ericgui  
       2021-08-03 02:31:47 +08:00
    北京市第一看守所
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3265 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 14:16 · PVG 22:16 · LAX 07:16 · JFK 10:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.