V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
TouwaErioer
V2EX  ›  问与答

爬取 Twitter 和 Facebook 的数据有哪些方案

  •  
  •   TouwaErioer · 88 天前 · 711 次点击
    这是一个创建于 88 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前提是不用官方 API (因为申请的话也大概率不会通过,还有就是官方 API 提供的数据不满足需求)

    • Twitter 反爬没有 Facebook 那么严格,公开界面不用登陆就可以获取数据,但目前遇到的问题是,初学爬虫,只会找 API 或者解析 HTML,Twitter 这种全是 JS 的搞得我一头雾水
    • Facebook 则是完全没有思路,要封 IP 还要封账号,进去必须登陆,就算进去了,全是 JS 也无从下手

    目前方案有:

    • 用现成的库,比如 twint 、facebook-scraper 这种,但不满足数据需求
    • Rsshub,需要自建且不满足数据需求
    • Rss generator 服务,成本会变高又不满住数据需求

    注:不满住数据需求大多是指获取不到评论

    4 条回复    2021-09-08 09:18:38 +08:00
    sunorg
        1
    sunorg  
       88 天前 via Android
    chrome headless
    hs0000t
        2
    hs0000t  
       87 天前 via Android
    看要爬什么数量级的数据,方案不一样
    最少的话手动复制粘贴
    多一点用按键精灵之类的录个脚本
    再多一点无头浏览器
    更多一点无头浏览器+IP 池+cookie 池
    走 js 反编译路线费时费力,且 js 更新速度很快,爬虫特征明显,算是最后的解决方案。当维护高性能爬虫服务器集群的成本大于组程序员团队破解 js 的人力成本和时间成本时再说,加机器就能解决的话没必要加人来解决,当然了如果是为了学习当我没说
    xiao109
        3
    xiao109  
       87 天前
    推特不是找 api 就可以了吗?
    Facebook 没爬过不评论
    dearmymy
        4
    dearmymy  
       87 天前
    技术菜的走网页,就是麻烦加成本高。服务器成本,ip 成本, 速度也慢。团队有逆向高手还是建议去逆向手机端接口,逆向 ios 端,毕竟黑科技反调试少。厉害点脱机获得加密算法,实在不行,手机做个服务器单独去调用加密函数给 pc 去发送就好。成本低速度快。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2114 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 16:02 · PVG 00:02 · LAX 08:02 · JFK 11:02
    ♥ Do have faith in what you're doing.