V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
meeop
V2EX  ›  问与答

看今天的阮一峰周报想到个点,数据共享计划

  •  
  •   meeop · 13 天前 · 2874 次点击

    当前互联网的一大问题是数据封闭,数据被认为是重要资产严密保护在各个公司手里

    这不公平也不合理:

    数据是各个用户劳动创造并免费共享的(比如帖子,视频,app),但是却不能被公开的免费获取,这点非常像论文下载公司,互联网公司以此牟利
    小公司缺乏数据,很难竞争,导致互联网被几家大公司垄断,进而侵犯用户利益

    那么,做一个将数据重新免费共享到全互联网的机制,就很有意义,诸位怎么看?

    我能想到的一个方案:

    做一个数据爬取和分发插件,在用户授权的范围,当他浏览网页时,就爬取当前网页,并广播全网
    下游数据消费者就能存储,解析,整理全网原始数据,供其他人使用

    这个方案能做到:

    免疫所有反爬策略,毕竟你不能不让用户看你的网站数据吧
    数据来源于人民,再被人民分发出去,道德架构上合理

    41 条回复    2024-06-07 22:27:23 +08:00
    iyiluo
        1
    iyiluo  
       13 天前
    不是已经有了吗,web3 的数据存储,filecoin 啥的。你想的方案一看就是违法的,所有绕过 robots.txt 策略的爬虫都不怎么合法
    meeop
        2
    meeop  
    OP
       13 天前
    @iyiluo 咱讨论是否合理,恶法非法
    kenshinhu
        3
    kenshinhu  
       13 天前
    我认为应尽量降低服务器存储的费用,并确保数据的长期保存。我不禁想到那些保存了数百万年信息的化石,这可能是最优的解决方案。

    试想一下,如果前一个文明发展到了比我们更高的科技水平,他们是否也曾一开始使用电子设备记录信息?后来,他们可能也发现了类似的问题,才意识到石头是最廉价且时效最长的解决办法。
    liprais
        4
    liprais  
       13 天前
    你准备进去蹲几年?
    meeop
        5
    meeop  
    OP
       13 天前
    @liprais 一天也不想进去,只是讨论
    meeop
        6
    meeop  
    OP
       13 天前
    @liprais 以及这个行为其实是合法的,我把我们的聊天截图后保存,分发,难道有哪里违法吗?
    pkoukk
        7
    pkoukk  
       13 天前
    每个用户上报的数据相当于自己详细的浏览记录,属于个人隐私数据,还是极度隐私
    你愿意公开自己的浏览器记录?
    summerwar
        8
    summerwar  
       13 天前
    请先回答下面的问题:

    1.对于用户来说,这个插件的使用是收费的还是免费的?查阅别人产生的数据是收费的还是免费的?

    2.别人使用插件产生的数据,是否对用户有益(金钱激励还是积分或者等级等提升)?如果有益,这些益处是否能让用户愿意让渡个人隐私而使用,如果免费,用户为何要使用插件来产生数据?

    3.数据存储到哪里?服务器、数据库以及所产生的的各种费用谁来支付?代码及这些数据的日常维护产生的费用如何支付?

    4.数据如何展示和使用?由展示产生的费用如何支付?

    5.作为反对数据封闭的一员,你的数据必然不会封闭起来,那么请问,由此产生的爬虫问题如何解决?是否要屏蔽或者防止爬虫爬取数据?为了与目的相一致必然不能禁止爬虫,那么因为爬虫产生的流量费用如何支持?
    yxd19
        9
    yxd19  
       13 天前
    @kenshinhu 那么是否需要大容量呢?如果它低成本大容量长期保存,那么它岂不是成了六边形战士了?那就不是想不想有而是能不能有的问题了。
    erwsd32ew
        10
    erwsd32ew  
       13 天前
    他能浏览不代表你能爬取他浏览的,某个网盘共享插件也干过这种小聪明,判了几年。
    meeop
        11
    meeop  
    OP
       13 天前
    @pkoukk 所以强调是在用户允许下共享特定数据

    比如你是一个博主,每发一篇博客插件都会问你,是否愿意共享此篇博客到全网,通常应该都是愿意的。

    另一个场景,我是一个普通用户,插件给你个按钮,推荐当前内容到全网(这个行为应该是会违法网站用户协议,不过每个人分享几篇内容目前不违反任何法律)
    meeop
        12
    meeop  
    OP
       13 天前
    @summerwar
    1 是否收费
    必然不能收费,用爱发电,收费那就是非法牟利了
    而且插件也未必是某个特定的人开发,它应该是类似 bt 下载之类的开源协议和客户端

    2 是否有激励
    一般没有
    用户分享一般目的是分享自己发布的内容,以及如标题所述为打破数据垄断做一点微小的贡献
    但也可以有
    比如你可以悬赏说挖一篇抖音的视频返现几毛钱(少量分享目前是灰产,就各个网站之间互相搬运,剽窃别人创作的内容)

    3 数据存哪里?
    不存储
    这里只是尝试建立一个内容共享生态机制
    存储是内容消费侧考虑的事

    当内容充分共享时,当然是谁用谁存储,各取所需
    比如我提供一个网盘下载搜索,我自然要监听网盘类资源共享消息并存储

    4 如何消费
    如 3 所述,取决于生态圈具体的应用

    5 如何反爬?
    数据都共享了还爬什么,直接监听共享消息啥都有
    meeop
        13
    meeop  
    OP
       13 天前
    @erwsd32ew 那肯定,所以需要用户授权,这是用户行为,插件只是提供工具
    kenshinhu
        14
    kenshinhu  
       13 天前
    那也是的,大容量存储是个重要的东西。不过,假如有了低成本、长期保存的方法,那信息压缩还会同时发展吧!

    像那些远古的化石,虽然看起来只是石头,但实际上它们保存了非常丰富的信息,比如气候变化、生物进化等。这些信息在石头中存储了数百万年,而且非常密集。
    pkoukk
        15
    pkoukk  
       13 天前
    @meeop #10 你这样相当于把互联网所有内容的风险转嫁到自己身上了,有人通过这个发色情,诈骗,你就得因为帮信蹲牢子
    qq135449773
        16
    qq135449773  
       13 天前
    其实我觉得这个想法是 ok 的,但是现在需要立法角度考虑 1 用户数据归属权 2 赋予爬虫更宽松的合法权力。

    指望国内某些人这辈子能想到这个问题肯定是没戏了。但是另一方面,不止国内,现在国外因为最近几年 AI 大火特火,各家各户都在各种限制爬虫。

    这样下去肯定不是办法,我估计将来为了保护互联网开放权力,迟早国外会有国家牵头法律上去限制这种城墙高筑的行为。
    somebody1
        17
    somebody1  
       13 天前
    你开发吧。

    反正我不会用的,我浏览网站都不想网站知道,还想让你个第三方知道!!!
    meeop
        18
    meeop  
    OP
       13 天前
    @pkoukk 我觉得不会,因为第一转发的人是某个具体用户,行为主体是该用户,第二也不存在“我”,因为这就是个开源软件,而且作者还是个外国人的话,中国法律管不到.

    比如说有人用 bt 分发色情信息,抓谁?
    meeop
        19
    meeop  
    OP
       13 天前
    @qq135449773 我觉得指望庙堂去改革是不可能的,也没有动力去改革

    要想改变只能靠群众自发支持新技术

    比如说短信和电话费用贵,我就做个 im 软件,当时不是各种阻挠吗,如今不还得妥协
    还有个例子是电视机顶盒,明明互联网电视更方便,但是就是不让介入,现在把电视搞得没人看了

    所以你觉得信息垄断不好,就应该力所能及的支持一些反垄断方案
    meeop
        20
    meeop  
    OP
       13 天前
    @somebody1 那是因为你是实名认证浏览的,允许匿名账户不关联具体个人信息不就完了

    比如别人看到的是“火爆兔兔”浏览了 xx 网站,分享了 xx 信息
    pkoukk
        21
    pkoukk  
       13 天前
    @meeop #17 你的软件通过什么途径,把信息“广播”到网络上面去呢?
    网页么?那这个网页是谁提供的?如果是你,那么这个网站上出现违法内容,你就要担责。
    如果你找些 github 这些公开免费网页作为途径,相当于薅公共服务的羊毛,他们愿意接收么?
    meeop
        22
    meeop  
    OP
       13 天前
    @pkoukk 用 gossip 协议啊,比特币用的这个
    或者用 dht 协议,ipfs 和 bt 都是这个方案
    还可以用一些免费公共服务做信号服务器,比如电报群
    或者使用 mastodon 等区中心消息服务

    这些方案都不依赖中心服务器,上面都有违法内容,都不需要有人担责
    somebody1
        23
    somebody1  
       13 天前
    @meeop #20

    厂商的隐私保护我都没法全信,你谁啊,你搞个匿名我就信?
    meeop
        24
    meeop  
    OP
       13 天前
    @somebody1 这里的隐私保护不是基于信用的,而是基于算法

    上述比特币啊,dht 啊,电报啊都是保护隐私的

    判断原理也很简单,只要一个服务不需要你填写任何隐私信息,那就是保护隐私了啊
    你啥都没填有啥好获取的
    如果是怕木马病毒后门之类,可以靠开源社区保证,你不懂有比人懂,代码开源的有问题就爆出来了
    H97794
        25
    H97794  
       13 天前
    各个大厂互相投广告!!!
    linyongxin
        26
    linyongxin  
       13 天前
    前段时间有篇爆文“中文互联网正在加速崩塌”,第二天全被删了。
    meeop
        27
    meeop  
    OP
       13 天前
    @H97794 确实会如此,相当于 ddos 攻击

    不过那是这个服务有很高热度之后的事了,而且也不是没法解决
    meeop
        28
    meeop  
    OP
       13 天前
    @linyongxin 这也是数据被垄断的另一个体现啊,因为数据被少数寡头控制,所以你才能很简单的删除

    数据分发到全网的话,根本不可能被删除
    pkoukk
        29
    pkoukk  
       13 天前
    @meeop #21 那你这个服务也不算 “广播” 吧,实际就类似于 tg 上面的盗版资源分享群咯?
    想看到这些内容,也得知道你这个地方,再加入你这里,才看得到。
    tg 上的盗版群也是需要管理员的,否则大量的灰黑产广告就会淹没有效信息
    YGHMXFAL
        30
    YGHMXFAL  
       13 天前
    @meeop #22 IPFS/BT 这些都是抗审查不抗封锁,ISP 有心/有红头文件,你这一套从技术上就玩不转了
    meeop
        31
    meeop  
    OP
       13 天前
    @pkoukk 确实具体实现还是有挑战的,主要在如何治理垃圾信息
    meeop
        32
    meeop  
    OP
       13 天前
    @YGHMXFAL 我觉得不至于
    1 如果真有红头文件,说明这一套这的可行且有很多人用(有巨大影响),那就已经成功了,能吸引到更多资源去对抗和迭代技术
    2 理论上只要能和墙外服务器建立数据连接,就能实现所有信息的传播
    实践层面上,比如 v2ray,支持对通信流量进行混淆和隐藏,看起来就是一个普通的 http 或者其他人畜无害协议包

    一个简单的解法就是挂个梯子,后面就是外网对外网的通信了,国内管不着
    YGHMXFAL
        33
    YGHMXFAL  
       13 天前
    还有一个问题就是,你这一套,在数据巨头看来也很好打击:

    强制内容登录后可见,然后加隐藏水印,以后在私域之外发现该内容就追踪+封号

    不止是截图可以藏水印,复制也可以藏“水印”,看看起点怎么追杀盗版,每一个账号看到的内容实际上不一样,随便多一个/错一个空格/空行/标点符号,不影响阅读,但是能追踪到你
    YGHMXFAL
        34
    YGHMXFAL  
       13 天前
    @meeop #32 那网民都有能力/兴趣到墙外冲浪了,还搬运墙内私域的内容干啥呢?你是说想搞互联网档案馆墙内专版吗?这个中国数字时代就是吧?
    meeop
        35
    meeop  
    OP
       13 天前
    @YGHMXFAL 这个还是技术对抗问题
    只要资源足够,你能反爬,我就能解反爬,结果取决于谁资源多

    对于我说的这个场景,项目不成功没人对抗我,项目成功就有更多资源升级技术

    而且最近不是还有兜底方案吗,直接用 ai 理解页面内容再整理数据输出,我已知的所有水印技术都会失效(明水印,隐水印,字符里藏隐藏字符或者编码)
    prompt 比如这么写:帮我理解当前页面,重新绘制所有图片并略微修改规避版权,重新理解并描述所有文字,并去掉可能的用户追踪编码
    meeop
        36
    meeop  
    OP
       13 天前
    @YGHMXFAL 只是讨论,比如打破数据垄断,实现真正意义全网数据共享?
    YGHMXFAL
        37
    YGHMXFAL  
       13 天前   ❤️ 1
    @meeop #35

    ①还需要网民有访问 AI 的能力,拉高了门槛,自然就缩小了受众圈子

    ②AI 重构原始内容,必然存在理解偏差和失真,失真后,受众能否接受?我个人不能接受
    Goooooos
        38
    Goooooos  
       13 天前
    “数据是各个用户劳动创造并免费共享的(比如帖子,视频,app),但是却不能被公开的免费获取,这点非常像论文下载公司,互联网公司以此牟利”


    数据是用户创造没错,用户可以上传多家平台,除了特定签约用户,没人限制只能上传某个平台
    summerwar
        39
    summerwar  
       12 天前
    你使用任何协议,即使不依赖于中心服务器,那么也必然存在着存储这些数据的服务器?那么请问,这些服务器存储这些数据,对他们有何益处?他们为什么要消耗金钱来存储这些东西?

    其次,这些数据既然是开源的协议和客户端,那么必然要考虑第二个问题,如何保证数据的真实性。当用户访问量大的时候,我直接往上面发送大量广告数据或者垃圾数据如何处理?如何保证数据的干净,减少垃圾数据的产生?数据是否能够修改,如果可以修改,如何保证不被篡改?

    最后,bt 协议也好,其他的协议也好,必然是对用户来说,好处大于坏处的,你这个我没看出来对用户好在哪里?

    数据是免费的,但是存储数据和展示数据是需要消耗货币的,维护数据和筛选数据也是需要消耗货币的,不能觉得因为数据是用户直接共享的,而认为没有成本,其实成本还是很高的。

    技术手段不能解决所有问题,但所有的问题最终要回到经济问题上来,那就是钱从哪里来?

    btw:广播全网,这里的全网指哪里?下游消费者就能存储解析,整理全网原始数据,那么当这个数据巨大的时候 ,每个人的硬盘上都先存储一份吗?按照今天互联网数据的产生速度,怕是不到一个月数据就把硬盘撑破了
    TY233
        40
    TY233  
       12 天前 via iPhone
    @yxd19 感觉你在说 DNA ,信息密度和时间尺度都是顶级容器
    meeop
        41
    meeop  
    OP
       12 天前
    @summerwar 看下我上面的回答
    数据分享只是数据生产端,消费端才会承担存储和法律风险
    消费端就是具体落地应用了,看应用场景,比如你要做一个网盘搜索,你就监听网盘类信息呗
    v2 上也经常能看到聚合全网某种数据的新应用,如果有这个生态的话,就不用自己做爬虫了,直接监听共享数据并聚合整理就行

    至于存储,这也不是问题啊,普通用户不存储,谁监听谁存储,信息只是分发出去了,并不是说必须全量存储
    另一个方案是 dht ,每个用户存储一部分,全网用户能生产多少数据,就一定能存储多少数据(你每天发的消息照片肯定能存储在你的手机里)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3116 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 11:46 · PVG 19:46 · LAX 04:46 · JFK 07:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.