V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gaigechunfeng
V2EX  ›  程序员

想做一个极简的看电影打卡小程序,怎么爬取豆瓣信息才不违法??

  •  
  •   gaigechunfeng · 2022-12-19 15:12:20 +08:00 · 3118 次点击
    这是一个创建于 709 天前的主题,其中的信息可能已经有所发展或是发生改变。

    ###我想做一个极简的,只是看电影打卡的小程序,目前程序差不多完成 80%,但是一边写一边自我怀疑,爬取豆瓣的信息到底怎么才不违规?和 V 友们讨论一下:

    1. 爬取的标题、介绍、片名等都不在 robot 协议限制当中,这个应该是合规的吧?

    2. 封面、剧照等图片文件的地址被 robot 协议限制,我如果直接用豆瓣地址显示算违规吗?

    3. 我把豆瓣图片 download 下来,上传到自己的 oss 上面算违规吗?

    4. 如果违规了,但是我这么小的小程序,会被追究吗?

    5. 结合 234 ,如果我只爬 robot 协议限制之外的文字信息,图片什么的使用鼠标人工下载图片,再上传到 oss 上(其实这样和爬虫作用一样,但是我在小程序上声明,所有图片都是人工手动保存并上传的,这样违规吗?)

    6. IMDB 上也不行,而且限制比豆瓣还多。

    最后一点,如果怎么都绕不过去,我只爬取 robots 协议里面开放的文字信息,这个肯定没问题吧???

    希望大家批评指正。

    15 条回复    2023-04-20 20:13:33 +08:00
    preach
        1
    preach  
       2022-12-19 16:14:54 +08:00   ❤️ 1
    以上问题在你用户量低于 100w 的时候都不是问题,当你有 100w 用户的时候自然能解决,所以放手干吧。
    zxCoder
        2
    zxCoder  
       2022-12-19 16:33:04 +08:00
    借楼提问,那如果我用豆瓣的图片,喂给 AI ,“画”出一张类似的图,违规吗 hhh
    ruanimal
        3
    ruanimal  
       2022-12-19 17:57:31 +08:00
    https://www.doubanapi.com/. 这个是官方提供的吗
    gaigechunfeng
        4
    gaigechunfeng  
    OP
       2022-12-19 20:01:01 +08:00
    @ruanimal 我靠,官方都有啊。 确实很容易就能爬取到。
    但是官方这里的图片地址:"http://img6.douban.com/view/photo/cover/public/p1642354684.jpg",
    在 robots.txt 里面被 ban 了啊。
    官方: 我犯法我自己?
    Orciorc
        5
    Orciorc  
       2022-12-19 20:09:34 +08:00 via Android
    @gaigechunfeng robot.txt 只是君子协定,真违反了也得看官方的态度,总不会我告我自己吧
    rekulas
        6
    rekulas  
       2022-12-19 23:05:08 +08:00
    doubanapi.com 这看起来可不像官方的,小心别被碰瓷了
    gniviliving
        7
    gniviliving  
       2022-12-20 08:31:46 +08:00
    @rekulas 这明显不是官方的,没 https ,还留个 github 地址
    vZexc0m
        8
    vZexc0m  
       2022-12-20 09:25:43 +08:00
    和豆瓣谈商业合作,获得授权就行了。
    luolw1998
        9
    luolw1998  
       2022-12-20 10:24:51 +08:00
    nekoneko
        10
    nekoneko  
       2022-12-20 17:40:08 +08:00
    给豆瓣交钱, 或者给豆瓣画饼, 让他们投资你
    safari9
        11
    safari9  
       2022-12-20 23:54:12 +08:00
    @luolw1998 机智,lz 搞几个类似的网站得了不一定非要去爬豆瓣的毕竟豆瓣也不全。图和介绍都可以从 imdb moviedb tvdb 这几个网站搞不一定非要豆瓣。
    fengyueheng
        12
    fengyueheng  
       2023-01-26 20:17:15 +08:00
    楼主小程序做好了吗
    gaigechunfeng
        13
    gaigechunfeng  
    OP
       2023-01-29 14:36:12 +08:00
    @fengyueheng 哈哈,多谢兄弟问了一句。正在做,没停。 做好了,我 at 你试用。
    服务端用的 flask ,小程序用的 uniapp ,代码都好说。设计这块我着实有点头疼,想法太多太乱不知道该怎么设计。
    13936
        14
    13936  
       2023-04-20 10:39:48 +08:00
    现在写小程序还能赚钱吗
    gaigechunfeng
        15
    gaigechunfeng  
    OP
       2023-04-20 20:13:33 +08:00
    @13936 除了接点外包赚点人工钱。 其它都不赚钱。 我这个是个人爱好。 :D
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3419 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:31 · PVG 19:31 · LAX 03:31 · JFK 06:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.