V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
matrixyuri
V2EX  ›  分享创造

众人拾柴火焰高,一起来开发一个自动化的社交网络信息收集工具吧!

  •  
  •   matrixyuri ·
    zhyuri · 2014-06-11 08:18:32 +08:00 · 10995 次点击
    这是一个创建于 3851 天前的主题,其中的信息可能已经有所发展或是发生改变。
    这是前几天偶然冒出来的一个点子,主要的想法是:

    从前获取一个人的信息的时候,往往是通过某一个社交平台入手,
    比如从微博开始,看 ta 的个人资料页面,寻找他绑定过什么应用,寻找经常与他进行交互的人的情况,从这些地方可以推断出这个人所在的城市、工作单位、毕业院校等信息,通过看过往微博还可以大致了解这个人的历程。
    从知乎开始通常是看个人资料页面看 ta 是否绑定了微博,然后转入之前的步骤;或者是看 ta 关注的话题、看 ta 回答的最好的话题,也可以大致了解一些 ta 的情况。
    其他的社交平台也可以搜刮出不少信息,比如在 V2EX,LinkIn etc.

    于是觉得可以做一个自动化的工具,更全面更准确的获取这些信息,通过对一个人的各种社交平台信息的分析,得到关于 ta 的多个关键字和基本信息,还可以获得 ta 的人际圈情况,通过对人际圈里每个人的基本信息提取,可以大致知道目标的很多情况。

    详细的想法介绍我都放在了 Github 上。

    对于这个程序的想法主要是:

    1.大家一起来开发,针对不同社交平台的模块开发出不同的模块,
    2.通过统一的数据输入输出约定保证数据格式一致,
    3.程序有统一的入口,通过调用模块获取结果,最终统一的展示出来,



    已经在 Github 上建好了项目,在 README 里简单阐述了想法,希望能有更多的人一起来玩这个东西,一起把这个事做成。
    Github : https://github.com/MatrixYuri/rMap

    对于实现语言还没有决定,
    本想用 PHP 会比较熟悉,但是 PHP 没有好用的异步以及并发,另外 PHP 也不适合这样运行时间很久的程序。
    用 Python 的话,我不是很喜欢 Python 的性能...
    Java 同理,虽然它很强大
    Go?我觉得不错,性能和功能上都能满足要求,不过我还不太熟练,如果有熟悉 Go 的朋友加入,我想进度会快很多
    C/C++ 这...会方便开发吗..

    如果大家有建议欢迎提出,晚辈是一只代码仔,会认真参与这个项目的执行,
    所以,现在有一个巨好玩的 idea,就差小伙伴们一起来玩了。

    欢迎邮件联系 zhang1437 (艾特) gmail.com
    104 条回复    2015-05-17 17:21:54 +08:00
    1  2  
    imn1
        1
    imn1  
       2014-06-11 08:23:27 +08:00
    不考虑隐私问题么?
    viquuu
        2
    viquuu  
       2014-06-11 08:27:24 +08:00
    好可怕的工具~~~
    matrixyuri
        3
    matrixyuri  
    OP
       2014-06-11 08:30:11 +08:00
    @imn1 呃,信息来源都是公开的,包括微博、知乎 etc. 大家每天毫无顾忌的把自己的生活 post 上去...就是让大家看的...我觉得应该还好吧,人自个愿意公开...我就是想有个自动化的工具将不同社交网络里的同一个人连起来分析下。

    当然你说的很有道理,这很有可能会成为一把双刃剑,怎么样保证好人用的到坏人用不到....
    我也不知道,像是 nmap 或者 sqlmap 这样的工具,自称是互联网安全检测工具,实际上被大伙儿拿来找漏洞找注入..我觉得这也是个现象。

    这样一把双刃剑我想可以用做对社会热点人物的人肉搜索、鉴别骗纸 etc.

    或者咱成立一个组织?这个工具掌握在咱自己手里,遇上网络热点内容了拿来人肉一下,放置被其他人滥用
    cevincheung
        4
    cevincheung  
       2014-06-11 08:34:47 +08:00
    这必须跟隐私问题挂钩。

    就像你说的nmap 、sqlmap等类似的工具的确被很多人用来漏洞注入检测攻击工具。但是总没人把这些东西都整合到一起然后说给别人说 [XXX攻击专用] 吧?ok,即便是有,那这也是属于不一样的概念。你这是纯粹人肉了。

    我的资料允许被公众浏览,可是你集中收集资料其中包括我的,我第一个就不愿意啊。

    那就好比说,房产商、移动运营商倒卖个人资料属于合法合乎道德的了?
    cevincheung
        5
    cevincheung  
       2014-06-11 08:36:32 +08:00
    抛开这一切暂且不谈,就单技术上根据什么保证各个不同的平台的数据是属于某一个人的。网络id随意起,重复的不在少数。
    sniper1211
        6
    sniper1211  
       2014-06-11 08:37:55 +08:00   ❤️ 2
    有被坏人利用的可能……
    “小朋友,你是不是叫XXX啊?你爸爸是YYY吧?你妈妈是ZZZ吧?你家昨天晚上吃的是¥%,对吧?跟我走,带你去吃你最喜欢的***”

    细思极恐
    faceair
        7
    faceair  
       2014-06-11 08:38:23 +08:00 via Android
    等于把所有社交平台全爬了一遍啊。。。主要是写爬虫和解析,还要考虑抓取频率、反爬虫策略等一堆、数据定期更新和存储。。你先弄个网站的list吧,估计会很繁琐
    写爬虫的话用python有很多轮子可以用,或者node效率也会比较高
    yangqi
        8
    yangqi  
       2014-06-11 08:39:20 +08:00
    无好感,感觉实际意义不大
    zjgood
        9
    zjgood  
       2014-06-11 08:40:53 +08:00 via Android
    超级社工库啊。。。
    imn1
        10
    imn1  
       2014-06-11 08:41:39 +08:00
    你要学习授权这个词的法律意思
    我发布和你发布是两码子事,虽然都是公开
    matrixyuri
        11
    matrixyuri  
    OP
       2014-06-11 08:48:24 +08:00
    @cevincheung
    房产商和移动运营商的个人数据应当是保密的,这个泄露是不应该的,这些数据原本就不允许公众访问。

    社交平台上的这些内容独立来看都是公开的,但是通过工具聚合起来,这个我不太清楚是否侵犯了隐私,但是看目前互联网人肉的情况,社会热点人物的信息大家默认是忽视隐私的。。。虽然我不认同这样做,但是确实是一个现象。我想这个工具可以在工具开发者内部大家一起决定使用,保护它不会被公众滥用,只有贡献了模块的开发者才可以参与决策。
    我想通过这个工具,应当能从民间层面形成一个力量,一方面曝光负面人物的真实信息,另一方面也能用事实提醒公众注意社交平台上的私人信息。

    保证帐号是同一个人,这个其实各个社交平台之间都有互相绑定或者都会有蛛丝马迹,比如知乎上很多人绑定了微博,再比如你的v2ex账户里有你的个人主页,个人主页上有你的个人信息。呃..sorry,我不再挖下去了。
    这个其实蛮好做的,不过你用了QQ 那个留言按钮和邮箱的邮我功能,这是个门槛 ^_^
    刚看了下你的信息,觉得好牛...顺带膜拜下哈~

    感谢回复~
    missdeer
        12
    missdeer  
       2014-06-11 08:48:44 +08:00
    我以前倒是想过做一个类似的东西,不过是以手机通讯录为中心的,只为通讯录中的每个人绑定他的各种网络服务账号,你可以随时看某个人刚刚在哪个网站说了什么话之类的。比你这个想法要内敛得多,限制得多吧。
    后来这个想法说给一妹子听,那妹子说这样会翻脸的,然后……就没有然后了。
    imn1
        13
    imn1  
       2014-06-11 08:49:35 +08:00
    http://www.miit.gov.cn/n11293472/n11293832/n12843926/n13917072/15514067.html
    《电信和互联网用户个人信息保护规定》

    请参看第二章
    cevincheung
        14
    cevincheung  
       2014-06-11 08:56:33 +08:00
    @matrixyuri

    除此之外,你还可能面临数据安全的考验,毫不夸张地说,你这数据应该要跟银行金融机构有同等的安全防护措施啊。
    一旦被美帝拿到资料。。。好可怖啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

    不知道gov会不会请你喝茶
    lsj5031
        15
    lsj5031  
       2014-06-11 08:56:36 +08:00
    DedSec既视感,看这架势天朝也快搭起ctOS了哈哈
    cevincheung
        16
    cevincheung  
       2014-06-11 08:56:45 +08:00
    @imn1
    good
    matrixyuri
        17
    matrixyuri  
    OP
       2014-06-11 08:57:44 +08:00
    @imn1
    唔..”电信业务经营者、互联网信息服务提供者“,我想使用这个工具的人更多的是普通用户而不是这两者...

    我知道台湾这方面法规很严格,国内好像在法律执行方面做的不好,导致大伙儿资料可以被随意访问。

    这方面应当是从信息源头上进行限制,比如非好友不能查看个人资料,我想源头上没有限制,获取这样的信息应该还ok吧。

    我的想法主要是信息的来源并不是破解私密库或者是使用了什么入侵的手段获取了非公开数据,所有的数据都来源于大家公开的个人资料和发布内容,我一个一个的人工看和用程序进行数据挖掘应该差不多吧...这方面我不是很懂。
    matrixyuri
        18
    matrixyuri  
    OP
       2014-06-11 08:59:39 +08:00
    @cevincheung 没啦...数据都是网上公开的,这只是一个爬虫和分析工具,美帝那技术肯定瞧不上咱的...他们人肉那仨中国军官,都是破解了 gmail 才得手的,都用上破 gmail 密码了,换我我才不费心思做个爬虫去爬社交网络呢……相比之下可靠度多低啊...
    matrixyuri
        19
    matrixyuri  
    OP
       2014-06-11 09:00:55 +08:00
    @sniper1211 小朋友……应该还不会用微博知乎 v2ex 吧,如果会的话才细思极恐咧~哈哈
    matrixyuri
        20
    matrixyuri  
    OP
       2014-06-11 09:01:34 +08:00
    @missdeer 记得有一个很刺激的游戏叫做《挨个介绍你通讯录里的人》
    cevincheung
        21
    cevincheung  
       2014-06-11 09:02:40 +08:00
    @matrixyuri
    你理解错了哦。用户不是软件或系统的始作俑者哦。你做了数据存储、收集、维护。单凭这三点你就依然是一个“营业者”了哦。这个条规很适用的哦。
    cevincheung
        22
    cevincheung  
       2014-06-11 09:04:31 +08:00
    别想这些有的没的了。做这些你还不如做一个 [基于P2P的自动翻墙工具] 来的实在。而且你还是 [互联网的救世主] 。这多屌。google的uproxy还不知道后年马月才出现。看好你哦。
    az402
        23
    az402  
       2014-06-11 09:05:33 +08:00
    黑镜 。。
    xinglp
        24
    xinglp  
       2014-06-11 09:06:53 +08:00
    @viquuu
    @cevincheung
    看起来楼主像是要做更牛逼舆情监督系统,然后卖给government,大家以后不要乱说话了
    matrixyuri
        25
    matrixyuri  
    OP
       2014-06-11 09:08:12 +08:00
    @cevincheung
    啊..酱的吗,我都没获利也没得到啥好处...

    那好吧...被你们说的这么恐怖,我自个默默做好了..
    怪不得黑客的工具很多都是写了自己用..本想着做个大伙儿都能参与的项目,被说成这样..

    有兴趣参与的可以继续联系我....
    没人一起的话,我就一个人慢慢打磨它好了。

    哀怨中..
    devon
        26
    devon  
       2014-06-11 09:08:22 +08:00
    工具是很好,很久以前想过。确实有一点隐私问题,不知道法律上是怎么界定的。

    Python,Ruby做爬虫都很方便啊,前期性能根本不是问题。最好是把总体架构设计好,各个模块可替换,可用不同的语言去写,这样,参与的人数会更多。而且,有性能问题时,随时替换掉一个模块就好了。其实也不一定需要爬虫,各大社交网站都提供API的吧。

    全部使用用户自愿公开的数据来做,先打通各个社交平台的API(这可以形成一个项目,用于其它用途),然后可考虑如果将这些数据聚合一下。
    cevincheung
        27
    cevincheung  
       2014-06-11 09:08:24 +08:00
    @xinglp
    果然水很深
    matrixyuri
        28
    matrixyuri  
    OP
       2014-06-11 09:09:40 +08:00
    @xinglp 舆情监督系统?俺们系有个老师做这个咧,不过他针对的是全部新浪微博的微博数据进行分析,最终可以得到某一时间段内的热点问题,从哪里开始经过怎样的传播最终影响了多少人。

    我没这理想啦..就是懒的手动人肉而已……就酱
    yangff
        29
    yangff  
       2014-06-11 09:11:14 +08:00
    其实这个系统已经有了。。
    binux
        30
    binux  
       2014-06-11 09:11:32 +08:00
    你们想的太简单了,关联才是最难的。
    xinglp
        31
    xinglp  
       2014-06-11 09:11:32 +08:00
    @matrixyuri 你们系还真有搞这方面的啊,是不是最近接到大单了
    matrixyuri
        32
    matrixyuri  
    OP
       2014-06-11 09:13:19 +08:00
    @devon
    嗯嗯,我目前的想法也是整体架构很重要,一开始就要有一个考虑长远的规范,保证整体架构长期不用变动就可以支持很多功能。

    api 一般有频率限制,我觉得直接爬页面简单粗暴点..当然 api 的数据格式会比较干净,方便提取。

    唔,这样看来,如果各个模块用不同语言写的话,需要涉及到语言中间的协同,这一点我还不是很懂,需要进一步学习~~不过谢谢您~!
    CRight
        33
    CRight  
       2014-06-11 09:13:29 +08:00
    You are being watched.
    The government has a secret system--a machine that spies on you every hour of every day.
    matrixyuri
        34
    matrixyuri  
    OP
       2014-06-11 09:14:23 +08:00
    @xinglp 那老师好像搞了有几年了吧,至少一年多了。

    不太清楚有没有项目诶...我觉得可能性不大,估计他想先做出来然后再找项目?
    反正他没和我说过这东西有谁资助他……可能是某个大项目里边的子课题吧~
    matrixyuri
        35
    matrixyuri  
    OP
       2014-06-11 09:15:17 +08:00
    @CRight 哈哈,然后不定时的丢个社保号出来给见义勇为的勇士吗~~:)

    不知道你有没有看懂这个梗……美剧《疑犯追踪》
    emric
        36
    emric  
       2014-06-11 09:17:32 +08:00
    @matrixyuri 在中华人民共和国境内提供电信服务和互联网信息服务过程中收集、使用用户个人信息的活动,适用本规定。
    欸, 本身就是违法的..
    matrixyuri
        37
    matrixyuri  
    OP
       2014-06-11 09:19:30 +08:00
    @yangff 我也觉得..就是没找到。

    估计有的话,也会考虑到楼上几位的法律问题而保密的吧...
    说起来还可能确实造成些法律问题呢..

    我现在的想法是限制在代码贡献者内使用,作为一个工具大家商议决定对谁使用。
    保证它只会被用于网络负面人物,不知道这样会有啥问题……

    囧,代码还一个字没有呢就出来这么多技术无关问题...
    matrixyuri
        38
    matrixyuri  
    OP
       2014-06-11 09:19:54 +08:00
    @emric 唉 ... 真是让人伤脑筋
    devon
        39
    devon  
       2014-06-11 09:20:02 +08:00
    @CRight 系统就是要具备这个效果,哈哈。
    sammo
        40
    sammo  
       2014-06-11 09:21:49 +08:00   ❤️ 1
    类似 FriendFeed (2011 年被广泛讨论的聚合社交应用 via http://www.zhihu.com/topic/19557142 ) ?
    devon
        41
    devon  
       2014-06-11 09:22:56 +08:00
    @matrixyuri 模块间,模块与总系统间的数据通信定义好就好。这样,每个人都可以用自己熟悉的语言来写自己需要的模块。

    系统有点像一个IFTTT,不过IFTTT是以我为中心,这个是以某个用户为中心,相当于,某个用户在weibo上发了条,自动存储到中心数据中;在blog上发布了一个新文章,同样的存储到这个中心数据中。
    matrixyuri
        42
    matrixyuri  
    OP
       2014-06-11 09:25:33 +08:00
    @sammo 唔..好像有点像。

    看看人家FriendFeed这意图,同志们...我觉得这个项目的说明可以包装下,哈哈
    TangMonk
        43
    TangMonk  
       2014-06-11 09:26:01 +08:00
    nodejs搞起
    devon
        44
    devon  
       2014-06-11 09:28:09 +08:00
    @TangMonk 用nodejs是个不错的选择。
    matrixyuri
        45
    matrixyuri  
    OP
       2014-06-11 09:28:30 +08:00
    @devon 唔,我最初的设想还没有自动存储。

    是想程序执行一次,将用户的过往社交数据尽可能多的提取、分析,然后得到关键词和个人信息结果供参考。

    如果是用户发一个微博就提取过来....似乎没有推送,得实时去爬,那要是目标多的话……会比较可怕...
    devon
        46
    devon  
       2014-06-11 09:31:47 +08:00
    @matrixyuri 如果这样的话,node-webkit + nodejs,存储也做到本地。做成一个工具软件用。先不做数据关联,让用户自己去建要关注的帐号,以及这个帐号下属的一系列社交应用/feed。这样的话,就简单很多了。从简单着手。
    qian19876025
        47
    qian19876025  
       2014-06-11 09:33:36 +08:00
    扯了半天 就是个社工库 人口流动跟踪 不过也是 这年代东西只要上网 毛线隐私啊

    与其爬社交网络不如直接查户口算球
    devon
        48
    devon  
       2014-06-11 09:35:18 +08:00
    @qian19876025 户口查不出来一个人的喜好,兴趣,社交活动.......
    TangMonk
        49
    TangMonk  
       2014-06-11 09:39:00 +08:00
    @devon 我追随你,反正最近也在学nodejs, 也好练练手,不过我觉得node-webkit 没有 atom-shell好。
    Akiyori
        50
    Akiyori  
       2014-06-11 09:39:50 +08:00
    Spokeo
    qian19876025
        51
    qian19876025  
       2014-06-11 09:52:53 +08:00
    @devon 社交网络你就能查到喜好?
    如果真想查喜好 我看只有一种站最真实 那就是黄站上的数据
    社交网络能查到的是人的圈子 人脉关系

    看来要对付这种想了解人隐私 只能直接加密聊天和 不上社交网了
    url
        52
    url  
       2014-06-11 09:56:23 +08:00 via Android
    我开始对楼主讨厌了,楼主的想法超出了我的底线
    idcspy
        53
    idcspy  
       2014-06-11 09:59:08 +08:00   ❤️ 1
    上次见过类似这个系统,友拓,利用人人等sns的公开信息,已经被雅虎收购了。
    huang321hp
        54
    huang321hp  
       2014-06-11 10:02:18 +08:00   ❤️ 1
    大数据原理类似?和隐私无关,只是自动执行信息采集的工具,不涉及hacker,所有采集的内容都来自公开的信息源,由软件自动聚合在一起,执行的效率比手工快很多。

    * 已通过iPhone通讯录查到多枚熟人注册的“小号微博”,这个从现实角度来说不算隐私吧?

    * 要考虑被社交网络屏蔽&封杀的可能。
    iyoood
        55
    iyoood  
       2014-06-11 10:03:00 +08:00
    楼主其实只是想拿到他女神手机号而已:^
    sun019
        56
    sun019  
       2014-06-11 10:31:40 +08:00
    人肉搜索 还是手动的好吧 自动的话杀伤力太大
    而且你在怎么开发也没有 z&f那套强啊
    addbook
        57
    addbook  
       2014-06-11 10:41:42 +08:00
    此项目可以有,主要是看你怎么用,实际上夸平台的数据采集会很全面,可以更加全面的分析用户特点,某些情况可以做到比搜索引擎的数据分析更精确的用户特点分析,因为按照楼主说的方法是没有遵循robot.txt的意思;实际上很多有用的信息都具有较强的反爬虫机制,无用的信息反而喜欢让搜索引擎去爬。
    ren2881971
        58
    ren2881971  
       2014-06-11 10:50:29 +08:00
    just for fun 又没有犯法 又没有伤害谁。
    支持楼主。
    ihacku
        59
    ihacku  
       2014-06-11 10:50:41 +08:00   ❤️ 1
    XDash
        60
    XDash  
       2014-06-11 10:53:28 +08:00
    Hail Hydra!
    gkiwi
        61
    gkiwi  
       2014-06-11 10:56:17 +08:00
    之前收到的一封邮件,当时我就...
    ren2881971
        62
    ren2881971  
       2014-06-11 11:00:43 +08:00
    @gkiwi 有点吓人。
    RIcter
        63
    RIcter  
       2014-06-11 11:06:43 +08:00
    (`・ω・´)同反感这个项目
    怎么看都不好呢..(主要是黑我大Python
    devon
        64
    devon  
       2014-06-11 11:43:23 +08:00
    @qian19876025 可以做数据挖掘呀,应该可以分析出来一些有用的数据。工具可以做善的用途,也可以做恶的用途。以前我也觉得这些是很隐私的,但是,如果我选择了公开这些数据,我觉得就还好。而且,如果身边有朋友能通过这些数据知道我的喜好,能帮助他更好地与我交往,我觉得也是蛮好的。
    devon
        65
    devon  
       2014-06-11 11:45:06 +08:00
    @TangMonk node-webkit,atom-shell两个都还在试用中,node有时会crash,让人比较郁闷。
    kuber
        66
    kuber  
       2014-06-11 11:47:02 +08:00
    从公开的信息里面提取不算侵犯隐私。其实microformat 里面已经有这方面的标准了,算语意网的一部分
    kuber
        67
    kuber  
       2014-06-11 11:47:57 +08:00
    以前google 的social graph 就是做这个事的。搞了google+ 以后他们放弃了这个项目
    matrixyuri
        68
    matrixyuri  
    OP
       2014-06-11 12:07:16 +08:00
    @huang321hp 咱俩想法很相近~特别是关于隐私部分的,握手~~
    matrixyuri
        69
    matrixyuri  
    OP
       2014-06-11 12:09:29 +08:00
    @sun019 为啥要和 z&f 竞争...人家做的好又不拿出来给大伙儿用,都偷偷藏着查水表用了
    matrixyuri
        70
    matrixyuri  
    OP
       2014-06-11 12:10:03 +08:00
    @ihacku
    !!!!

    这想法,简直重合度100%,不过我先下手做起来再说~哈哈
    matrixyuri
        71
    matrixyuri  
    OP
       2014-06-11 12:11:43 +08:00
    @kuber 酱紫的吗...我觉得可能 google 考虑到隐私问题才放弃的吧...
    毕竟这样的一个工具能爬到的内容会相当丰富,

    说不定会有热心的开发者做个模块匹配出了1024的账户啊哈哈那就惨了。。。
    ayang23
        72
    ayang23  
       2014-06-11 12:14:53 +08:00
    我的第一个想法是如果楼主真能做出来,会引来杀身之祸
    matrixyuri
        73
    matrixyuri  
    OP
       2014-06-11 12:16:31 +08:00
    @ayang23

    哈哈~~有道理

    打枪的不要~有兴趣的我们悄悄滴干活~
    TangMonk
        74
    TangMonk  
       2014-06-11 12:27:15 +08:00
    我想起了一个新版火狐的视频:
    https://webwewant.mozilla.org/en/#video
    chenggiant
        75
    chenggiant  
       2014-06-11 12:54:04 +08:00
    想法其实不错!支持楼主!
    geew
        76
    geew  
       2014-06-11 13:14:58 +08:00
    @RIcter 同感 python怎么就性能不行了
    icyalala
        77
    icyalala  
       2014-06-11 13:20:06 +08:00   ❤️ 1
    有点反感LZ这个想法。

    就好像明星走在外面,有人不知道躲在哪儿偷拍似的,说直白点就是网络狗仔。
    自己玩玩或在小圈内传播还好,当成工具或是服务发布出来,怕是会招来麻烦。


    另外,微博、LinkdIn这样的平台里的信息,不是公开的,你需要注册才能浏览,注册时会有各种条例。这其中的个人信息和发布的内容都受到平台的保护。

    以新浪微博的注册为例: http://weibo.com/signup/v5/protocol
    5.1知识产权:微梦公司提供的网络服务中包含的任何文本、图片、图形、音频和/或视频资料均受著作权、商标和/或其它财产所有权法律的保护,未经相关权利人同意,上述资料均不得在任何媒体直接或间接发布、播放、出于播放或发布目的而改写或再发行,或者被用于其他任何商业目的。
    6.1隐私保护:保护用户隐私是微梦公司的一项基本政策,微梦公司保证不会将单个用户的注册资料及用户在使用微博服务时存储在微梦公司的非公开内容用于任何非法的用途,且保证将单个用户的注册资料进行商业上的利用时应事先获得用户的同意。

    再另外,还有这一篇扯淡的查水表用的决议: http://news.sina.com.cn/c/2012-12-29/051425921660.shtml
    matrixyuri
        78
    matrixyuri  
    OP
       2014-06-11 13:27:03 +08:00
    @icyalala 唔..我是认为,微博里的个人资料页是大家自己写上去的,而且默认是展示给所有人的,不管是关注了还是没关注。所以我觉得这个应该算是公开的吧...因为任何人都可以打开看到。
    如果是注册浏览,那其实爬虫所使用的帐号可以随便申请一个...也追究不到。

    不过您说的确实是一个隐患,
    经过大家的讨论我觉得如果这工具真成了,还是形成一个社区大家共同管理会比较好,放开给大伙儿用可能会有意料之外的后果。

    我的本意是希望能通过收集大家在网上自愿公开的信息,在各个社交网络间把同一个人的不同帐号连接起来,共同构成一个人在互联网上的一个样貌。

    讨论了这么多,在技术上还没有人愿意参与,感觉大家的焦点在隐私保护方面...其实我一开始是想招募伙伴一起做这个的……楼都歪掉了好伤心...
    xinglp
        79
    xinglp  
       2014-06-11 13:53:28 +08:00
    @cevincheung 北外那个twitter上发基站贴的那个女的可能就是通过这种途径找到的。不然你想想这种东西除了老大哥别人谁会有兴趣,没有其它商业方面的驱动。
    algo31031
        80
    algo31031  
       2014-06-11 14:36:14 +08:00
    @gkiwi 话说我刚才也收到一封...
    Akagi201
        81
    Akagi201  
       2014-06-11 14:57:03 +08:00   ❤️ 1
    用go的话, 加我一个, qq: 1413031398
    matrixyuri
        82
    matrixyuri  
    OP
       2014-06-11 15:00:57 +08:00
    @Akagi201 已收下 QQ,具体的实现语言和架构还在思考和讨论~
    欢迎提出想法建议哈~~
    algo31031
        83
    algo31031  
       2014-06-11 15:17:15 +08:00
    直接主动去抓的话, 怎么都感觉不好

    或者可以可以换个思路

    各大网站基本都有开放平台api. 觉得还是要让用户先注册然后向用户申请授权.只抓取有授权的

    刚才看了下61楼那邮件的站, 似乎就是做这个的

    但即便是这样,从被抓那人角度看, 还是觉得不放心: "你抓我一堆数据要做什么? 万一你把抓来的数据泄露了咋办?" 如果被抓数据的认识我, 第一感觉就是那2个问题

    细思极恐
    XadillaX
        84
    XadillaX  
       2014-06-11 15:17:27 +08:00
    我想说的是,很多网络小白,会经常不经意把隐私信息留在网络上,也许是非常不起眼的地方,而且一般人也不会去注意。但是这个时候突然来了个有心人,把他在网上所有的痕迹捞出来呢?就相当于泄露了不该泄露的东西啊。
    matrixyuri
        85
    matrixyuri  
    OP
       2014-06-11 15:32:18 +08:00
    @algo31031
    @XadillaX

    唔,资料是用户自己填的...是公开的,这个工具要做的只是收集起来,然后分析一下。

    我觉得有点像这样的情景:
    一个人从小到大说了好多话,有一个录音机在旁边全都录下来,于是通过这个录音可以分析出这个人的交际圈、交互最多的好友之类的信息,当然也可能会分析出家地址、公司等等没有明说的信息。

    我觉得大家在互联网上发布了内容,不管是微博还是帖子,都要想到这些是完全公开在互联网上的,任何一个人都有能力看得到,进而有技术的人会想到设计工具来爬取这些。

    感觉纠结的一点在于,单个帖子微博是公开的无所谓,使用工具规模化的提取、分析这些公开信息,得到的这个结果,到底算不算是公开合法的呢?
    因为你的隐私不是我窃取到的,是通过你的网络印记统计出来的,甚至可能只是简单的关键词统计就能得到有价值的结果。

    我主张结果依然是合法的,这个工具是允许设计和运行的,但同时这个程序结果应该限定一个查看范围,不能肆意公开在互联网上,毕竟这样的结果相当于极大的缩短了社工时间。
    如果有这样的工具,社会调查、企业招聘等等,可以很全面的得到候选人的互联网信息,想比起自我介绍,我觉得用这个工具更能评价出一个人在互联网上的样貌。
    algo31031
        86
    algo31031  
       2014-06-11 15:36:49 +08:00
    @matrixyuri 参看13楼, "我主张结果依然是合法的" 《电信和互联网用户个人信息保护规定》似乎不这么认为

    第九条 未经用户同意,电信业务经营者、互联网信息服务提供者不得收集、使用用户个人信息。

      电信业务经营者、互联网信息服务提供者收集、使用用户个人信息的,应当明确告知用户收集、使用信息的目的、方式和范围,查询、更正信息的渠道以及拒绝提供信息的后果等事项。

      电信业务经营者、互联网信息服务提供者不得收集其提供服务所必需以外的用户个人信息或者将信息用于提供服务之外的目的,不得以欺骗、误导或者强迫等方式或者违反法律、行政法规以及双方的约定收集、使用信息。

      电信业务经营者、互联网信息服务提供者在用户终止使用电信服务或者互联网信息服务后,应当停止对用户个人信息的收集和使用,并为用户提供注销号码或者账号的服务。

      法律、行政法规对本条第一款至第四款规定的情形另有规定的,从其规定。
    matrixyuri
        87
    matrixyuri  
    OP
       2014-06-11 15:45:35 +08:00
    @algo31031
    我觉得这事儿可以这么解决,用户来注册 rMap,然后告知 ta 我们会提取与 ta 相关的主流社交网站信息进行分析,得到的结果呈现给 ta 自己看,另外可以给 ta 一个链接分享给别人看。

    这样的话,有一个告知的步骤,另外结果的分享完全是用户主动自愿的。

    这样我觉得应该完美解决这个问题了....吧
    kuber
        88
    kuber  
       2014-06-11 15:49:51 +08:00   ❤️ 2
    我觉得关于隐私有点误解。如果是未经得用户同意公开出来的信息,抓取并作商业应用是不合法的。如果是经过同意,甚至是用户主动公开的,能用来为用户提供更好的服务则不是。
    语义网是个很早就开始的东西了,你可以microformat 来定义你的个人信息放在你自己的网页上(以及一些国外主流的服务上),让机器来读取你的信息。从这一点来说和rss 跟Rich Snippets 是一样的东西。Twitter, Flickr,facebook 都支持它。所以理论上你可以做到不过主要是对美国人。
    有兴趣的人可以看看这个四年前的demo: http://www.identengine.com/
    这个作者关于microformat的博客也值得一看: http://www.glennjones.net/articles
    kuber
        89
    kuber  
       2014-06-11 15:54:50 +08:00
    以前我也写过一个demo,给我一个社交网站账号(人人,微博,twitter,博客,甚至你的邮件地址),我可以找到你的其他社交网站上的账号(人人,微博,博客,twitter,flickr等等),并且抓取上面的内容。
    当时的应用场景是聚合你的信息流,类似friendfeed或者about.me
    matrixyuri
        90
    matrixyuri  
    OP
       2014-06-11 15:55:44 +08:00
    @kuber 感谢!好贴合的干货!认真阅读ing..
    sammo
        91
    sammo  
       2014-06-11 16:37:31 +08:00   ❤️ 1
    我认为本楼里说的是两个东西,均不涉及隐私问题。
    第1个是类似 ifttt 的服务,可以在用户授权的情况下,从被授权的网站提取信息,组织于一个页面上。这个页面可以让我看到我和围脖好友的互动,看到我在豆瓣写过的书评,看到我在知乎写过的答案,看到我在某音乐网站听过的歌曲,总之,包含我在互联网上的足迹 —— 前提是,我给它授权,且网站有开放API。
    这样的消息呈现,是 API 内容的大聚合。实际上这(可以)是在授权之后由根网站的开放 API 的实现自动推送[ 参见 FriendFeed ]

    第2个是也是收集并展示一个人在各个网站上的足迹,只是这不是经过授权的,而是纯抓取。由一系列(能绕过网站抓取限制)抓取规则组成,这是可以实现的。
    这样的消息呈现,是爬虫信息的大聚合。

    对于第2个,看似是有隐私问题,但实际上是不存在的 —— 因为爬虫无法超越被爬网站隐私规则,爬虫收集到的是公开的拼图。
    对于第1个,更是没有隐私问题,因为你可以选择不授权或根本不用这个服务。
    -*-

    搭车,我对于第1个这样类似 ifttt 的 搭建于 API 授权的服务十分赞同,即在授权的情况下,从不同的社交网络拉取我在那上发布过的信息,这是合理的。

    联想 google+ 的圈子,体现出了网络上的不同的人的不同身份(例如 一个精力分散的人可以是虎扑上的体育迷,也可以同时爱在豆瓣上写新书书评或在v社分享发现,或在艾尼墨分享动画,在某网站分享摄影作品)。而这样的服务,相当于把虎扑网豆瓣v社艾尼墨等 *垂直领域的bbs* (而不只是 google+ 上的球迷圈子、新书推荐圈子)联系了起来,节点就是人。
    ———— 这个服务呈现的,(比任何一个垂直领域bbs呈现的)更加趋近于一个真实的人?

    如果这个服务,有自己的网站(即所有使用这个服务的人的信息,都聚合在此),再匹配一个赏心悦目的页面设计的话....
    另:
    1 这个服务是信息的搬运工,所以可能比垂直领域bbs省去了 “ 网站运营 ” 这么个职位
    2 因为在做大之后,可能会和垂直领域bbs竞争,极可能导致这些bbs直接关闭对这个服务的API提供,所以这个东西最好最终会开源 非盈利
    caomu
        92
    caomu  
       2014-06-11 16:50:19 +08:00
    caomu
        93
    caomu  
       2014-06-11 17:00:03 +08:00
    @sammo 第一个这个类似FF的,我记得国内好像有类似的,有人网,不过好像也死了。 http://www.36kr.com/p/29435.html

    关于这个需求,我也有两个方面的需求。一个是一站聚合各站好友的时间线,不必微博豆瓣到处跑。一个是一站聚合我的时间线,可按权限显示不同内容,让我的好友不必到处跑。
    然后是数据挖掘和热点挖掘功能,自动推送用户需要的信息,而不是沉溺在信息汪洋之中。
    chens
        94
    chens  
       2014-06-11 17:21:39 +08:00
    我觉得应该先抛开隐私道德层面的东西,楼主这个想法非常好,用程序来实现社交搜索中采集+匹配的工作,挺有挑战的。
    icloudnet
        95
    icloudnet  
       2014-06-11 19:48:47 +08:00   ❤️ 1
    首先这个在美英等发达国家是不允许的
    这是隐私侵犯,就跟肖像权一样,人家可以露脸,但是你不可以拿来用

    这也是Google允许欧洲可以删除隐私的事

    虽然在中国这个没问题,几年前被投诉到FBI过,自此开始才重视隐私条款
    所以我们做的英文网站特注意隐私条款和term of use。

    当然,你要是在中国做,没话说。
    matrixyuri
        96
    matrixyuri  
    OP
       2014-06-11 23:07:33 +08:00
    @icloudnet
    酱紫的吗...

    我后来的想法是用户授权,提供 ta 自己的邮箱或者昵称 blabla 的基础信息,然后这个工具绘制出 ta 在互联网上的足迹社交圈之类,这样算是用户自愿的,我觉得应该没问题。

    可以通过邮箱验证来确定这个用户是这个邮箱的所有者。
    reverland
        97
    reverland  
       2014-06-12 00:14:41 +08:00
    maltego?
    WildCat
        98
    WildCat  
       2014-06-12 01:58:37 +08:00 via iPhone
    @gkiwi 我也有收到!
    matrixyuri
        99
    matrixyuri  
    OP
       2014-06-12 07:56:49 +08:00
    @reverland
    呃...有点类似,我想rMap 应当更注重社交网络平台的内容获取和分析,得到的结果更倾向于对一个人的描述词
    sunjourney
        100
    sunjourney  
       2014-06-12 09:18:49 +08:00
    http://thepast.me/
    符合LZ的要求不?
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5465 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 03:39 · PVG 11:39 · LAX 19:39 · JFK 22:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.