V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jackyLu
V2EX  ›  程序员

爬虫真的有法律风险吗,个人弄了一个爬取晨星国内基金的爬取,然后对数据进行聚合,过滤,分析,输出,但是并不商用

  •  
  •   jackyLu ·
    jackluson · 2022-11-14 11:09:01 +08:00 · 10304 次点击
    这是一个创建于 500 天前的主题,其中的信息可能已经有所发展或是发生改变。

    table

    其实就是爬取所有的国内场外基金某一个季度的数据,然后重点关注你需要的数据,比如晨星评级,持仓股,总资产等等。根据你的指标过滤,整合汇总,输出。这样就可以分析出高晨星评价的基金,还有就是哪些股票是基金重仓股。有了很多个季度的数据之后,就可以分析出变化趋势来。

    做这个项目一直忐忑不安的。万一真的触碰到法律了,还是就麻烦的。各位 V2EX 们可以讨论,给给建议

    68 条回复    2022-11-16 18:25:40 +08:00
    jackyLu
        1
    jackyLu  
    OP
       2022-11-14 11:09:57 +08:00
    Rache1
        2
    Rache1  
       2022-11-14 11:11:17 +08:00   ❤️ 4
    信则有,不信则无。
    fengjianxinghun
        3
    fengjianxinghun  
       2022-11-14 11:13:39 +08:00
    欲加之罪 何患无辞
    Mark24
        4
    Mark24  
       2022-11-14 11:14:11 +08:00
    欲加之罪 何患无辞
    vzong
        5
    vzong  
       2022-11-14 11:15:17 +08:00
    欲加之罪 何患不整你
    ospider
        6
    ospider  
       2022-11-14 11:16:44 +08:00   ❤️ 15
    自己用当然无所谓啦,除非你把对方网站爬挂了。不过,放 GitHub 上你跟我说自己用?
    FallenTy
        7
    FallenTy  
       2022-11-14 11:16:52 +08:00   ❤️ 2
    你自己搞搞可能人家还不在意,传播多了就看人家想什么时候搞你了
    Features
        8
    Features  
       2022-11-14 11:32:41 +08:00
    放 gayhub 干嘛? 怕官方找不到你?
    jackyLu
        9
    jackyLu  
    OP
       2022-11-14 11:33:13 +08:00
    @FallenTy 有这种案例吗
    jackyLu
        10
    jackyLu  
    OP
       2022-11-14 11:35:50 +08:00
    @ospider 个人做这个东西本意也是出自于分享,还有就是对基金感兴趣,但是也是爬传播广了,有一定风险
    pengtdyd
        11
    pengtdyd  
       2022-11-14 11:36:09 +08:00
    对于公开的数据,一般只要不弄垮对方服务器,基本没问题。
    jackyLu
        12
    jackyLu  
    OP
       2022-11-14 11:38:08 +08:00
    @pengtdyd 这些都是公开的数据,而且我一般是一个季度爬取一次
    Ionian
        13
    Ionian  
       2022-11-14 11:49:47 +08:00
    没事吧 你大可以说这个是自己手动整理的 公开数据没说不让整理吧
    HunSiKing
        14
    HunSiKing  
       2022-11-14 11:50:35 +08:00
    有法律风险的事情, 你还放 GitHub 上, , 这是什么操作?
    liuidetmks
        15
    liuidetmks  
       2022-11-14 11:50:51 +08:00
    你要是把这个系统搞崩了,就会找你。

    而且这类数据应该是要收费的。
    Jooooooooo
        16
    Jooooooooo  
       2022-11-14 11:52:31 +08:00
    别人报警你就得喝一壶.
    newmlp
        17
    newmlp  
       2022-11-14 11:53:42 +08:00
    自己玩玩就行了,不要传播
    zcjfesky
        18
    zcjfesky  
       2022-11-14 11:55:02 +08:00 via Android
    晨星数据库账号一个一年收费 15 万左右
    你自己玩没事,拿出来传播,做大了之后对方一告一个准
    baleeny
        19
    baleeny  
       2022-11-14 11:58:20 +08:00
    还发出来问。。。是怕别人找不到你吗
    bt7vip
        20
    bt7vip  
       2022-11-14 12:00:04 +08:00 via Android
    自己爬没风险,自己爬自己用没风险,自己爬自己几个朋友分析没风险,自己爬上传 gayhub 你是怕别人找不到你
    westoy
        21
    westoy  
       2022-11-14 12:01:35 +08:00
    这不叫怕, 这叫骑脸输出.......
    maggch97
        22
    maggch97  
       2022-11-14 12:08:42 +08:00 via Android   ❤️ 2
    中国程序员的法律意识我感觉无限趋近于 0
    HugoChao
        23
    HugoChao  
       2022-11-14 12:11:27 +08:00   ❤️ 2
    刑不可知 威不可测
    exiahan
        24
    exiahan  
       2022-11-14 12:39:02 +08:00 via Android   ❤️ 2
    Ga2en
        25
    Ga2en  
       2022-11-14 12:43:01 +08:00
    先自己问着,然后顺便放出来让别人用。

    啧啧
    yopv2
        26
    yopv2  
       2022-11-14 12:56:33 +08:00
    但凡是爬虫 没授权给你 就看他啥时候逮你了,什么挂不挂的 对方随时可以给你整出来
    Frankcox
        27
    Frankcox  
       2022-11-14 12:59:04 +08:00
    @yopv2 纯好奇,要是爬国外 porn 网站呢?尤其是那种泄露 onlyfan 这种。
    darkengine
        28
    darkengine  
       2022-11-14 13:00:34 +08:00
    你是怕别人不知道么。。。还放个仓库
    ragnaroks
        29
    ragnaroks  
       2022-11-14 13:03:10 +08:00
    在国内除了搜索引擎,爬虫没有合法的,自己闷声大发财吧。
    NoDocCat
        30
    NoDocCat  
       2022-11-14 13:38:06 +08:00
    刑事你, 与你何干?
    SleepyRaven
        31
    SleepyRaven  
       2022-11-14 13:38:20 +08:00
    猜测是因为 issue 里那个老外想和你合作,所以楼主才来这里问一下有没有风险吗
    fournoas
        32
    fournoas  
       2022-11-14 13:39:48 +08:00
    口袋罪,想治你就治你
    cholerae
        33
    cholerae  
       2022-11-14 13:42:03 +08:00   ❤️ 10
    看似是提问,其实是来打广告的
    KKLeon
        34
    KKLeon  
       2022-11-14 13:44:39 +08:00 via Android
    @maggch97 张口就来?
    msg7086
        35
    msg7086  
       2022-11-14 13:44:40 +08:00   ❤️ 1
    只要不公开,不让人知道,就没什么大问题。
    如果公开,那就不能让人知道是你干的。
    比如说账号不能和你的个人信息关联起来,不要发帖宣传,等等。
    aoling
        36
    aoling  
       2022-11-14 13:55:35 +08:00
    @luxuemin2108 你发地址出来是出于炫耀推广的,不是真正的提出问题
    gesse
        37
    gesse  
       2022-11-14 15:29:13 +08:00
    jinzhongyuan
        38
    jinzhongyuan  
       2022-11-14 15:46:49 +08:00
    你这问题不小啊
    jackyLu
        39
    jackyLu  
    OP
       2022-11-14 16:52:52 +08:00
    @gesse 这个是什么来的
    fank99
        40
    fank99  
       2022-11-14 17:37:51 +08:00
    别碰个人的任何信息,例如:身份找、手机号、姓名、住址,在这个基础上,控制访问频率,风险会大大减少
    lisxour
        41
    lisxour  
       2022-11-14 17:42:55 +08:00
    1. 只采集本就公开的数据
    2. 没违反网站反爬虫采集规则、Robots 协议、转载声明、数据使用说明等
    3. 不涉及个人信息倒卖

    那么基本就没啥问题
    MMMMMMMMMMMMMMMM
        42
    MMMMMMMMMMMMMMMM  
       2022-11-14 18:24:55 +08:00
    挂代理爬,他没证据的
    x86
        43
    x86  
       2022-11-14 18:25:52 +08:00
    我拷,刑呀
    ScoutWang
        44
    ScoutWang  
       2022-11-14 19:03:47 +08:00
    面向监狱编程
    zictos
        45
    zictos  
       2022-11-14 19:04:03 +08:00
    @lisxour #41 要账号登录但账号是免费注册的算公开吗?
    Aumujun
        46
    Aumujun  
       2022-11-14 19:07:37 +08:00 via Android
    爬虫自己藏着用就行了,还放出来嘚瑟,我身边好几个被搞,你传 github 他们报警也能找到你
    stroh
        47
    stroh  
       2022-11-14 21:08:20 +08:00
    我前前前同事就是这么进去的,关了半年,出来,找工作没人要,自己开饭馆了
    xingHI
        48
    xingHI  
       2022-11-14 21:19:43 +08:00   ❤️ 7
    判断爬虫行为是否违法。从法律专业角度来看,首先要看爬取行为本身是否合法,然后是对于数据的使用是否合法。
    OP 爬取晨星国内基金的数据,从技术方法来看采用模拟登陆然后获取数据的方式,并未去破坏晨星国内基金的平台正常使用,可以看作是用户正常登陆后,记录所看到的内容,并非采用入侵等方式,所以爬取行为合法。然后再来看对于数据的使用,从目前来看 OP 将其公布在 Github 上,并演示了简单的分析;对于公布数据这个行为,晨星国内基金的数据也是通过合法爬虫的方式来获取,其属于不完全独创性的数据库(法律上暂未明确),但楼主的简单分析显然是合理使用行为,不构成侵权,但将数据公布在 Github 上具有一定法律风险。

    来自计算机+法律双专业学生的建议:只公开技术方法,不公开数据本身。
    lijiangang886
        49
    lijiangang886  
       2022-11-14 21:28:49 +08:00
    说的这么详细,你到底是来咨询爬虫法律风险的还是来推销你的项目的?
    Weixiao0725
        50
    Weixiao0725  
       2022-11-14 21:43:06 +08:00
    看这 fork 数量比 star 还要多。。
    RuralHunter
        51
    RuralHunter  
       2022-11-14 21:43:57 +08:00
    爬取公开的数据根本没问题,不要听楼上那些神神经经瞎扯的。
    stonesirsir
        52
    stonesirsir  
       2022-11-14 22:04:38 +08:00
    这个吧,据说爬国外没事,国内的的话就。。。
    luojiyin87
        53
    luojiyin87  
       2022-11-14 22:31:57 +08:00
    未经授权,都是违法。
    Aloento
        54
    Aloento  
       2022-11-14 22:32:58 +08:00
    这种事情还是建议你人在国外再干
    llldean
        55
    llldean  
       2022-11-15 01:01:17 +08:00
    看来企查查和天眼查还是牛逼阿
    interim
        56
    interim  
       2022-11-15 02:20:19 +08:00
    @maggch97 地图炮又开起来了?
    likang8210
        57
    likang8210  
       2022-11-15 08:36:07 +08:00
    sqlalchemy.exc.ProgrammingError: (pymysql.err.ProgrammingError) (1146, "Table 'fund_work.fund_morning_manager_assoc' doesn't exist") 运行 11 的时候,少了表
    weeei
        58
    weeei  
       2022-11-15 09:04:25 +08:00
    @Frankcox 如果触犯当地法律,这属于跨国的网络犯罪。最多网上封你号,抓不了你。
    Joeith
        59
    Joeith  
       2022-11-15 09:11:57 +08:00
    先 folk 为敬
    cheng6563
        60
    cheng6563  
       2022-11-15 09:54:54 +08:00
    你看这个口袋又大又宽
    2bNot2b
        61
    2bNot2b  
       2022-11-15 11:08:48 +08:00
    @xingHI #48 计算机 和 法律是自己修了两门专业吗?
    wannaw
        62
    wannaw  
       2022-11-15 11:25:32 +08:00 via Android
    ccjy778899
        63
    ccjy778899  
       2022-11-15 11:42:29 +08:00 via iPhone   ❤️ 1
    国内你讲法律?严格立法,普遍违法。选择执法。问题是,他们会不会拿你执法,如果要对你执法,你肯定违法,怎么弄都违法
    yangchao4228
        64
    yangchao4228  
       2022-11-15 13:08:53 +08:00
    @Joeith 先 start 为敬[狗头]
    xingHI
        65
    xingHI  
       2022-11-15 15:15:37 +08:00
    @2bNot2b 是的
    2bNot2b
        66
    2bNot2b  
       2022-11-15 15:29:10 +08:00
    @xingHI #65 已经开始工作了吗?能否加个 vx 聊一聊😁
    nuk
        67
    nuk  
       2022-11-16 03:23:18 +08:00
    没人告就没人管,不管违法不违法,前提是要匿名,没有你的信息怎么告?
    xingHI
        68
    xingHI  
       2022-11-16 18:25:40 +08:00
    @2bNot2b 快毕业了,我的邮箱: [email protected]
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3065 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 12:50 · PVG 20:50 · LAX 05:50 · JFK 08:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.