V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
luosuosile
V2EX  ›  程序员

提个问题,百度网盘怎么检查违规信息的,今天我发现 rar 包都能检测到违规信息,这个是怎么做的?

  •  
  •   luosuosile · 2018-07-20 00:18:50 +08:00 · 24662 次点击
    这是一个创建于 2079 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我想的是。

    先是提取关键字,然后根据关键字定位。

    以前看的文章,.avi 文件,可以靠音频文件来定位,毕竟都有一定相似性嘛。

    那比如纳粹图表,血腥图片的又怎么办呢?

    现在我发现压缩包的能找到了,

    百度难道真的给你解压缩一遍了?

    最后想到的问题是,这些能靠机器学习解决吗?先给他找大量样本,然后让他不断学习是吗?

    那就是有人人工给他找大量样本,然后让一些人,给他清洗数据,最后再把干净合理的数据拿来用是吗?

    53 条回复    2018-07-22 09:32:38 +08:00
    dewi
        1
    dewi  
       2018-07-20 00:25:15 +08:00 via iPhone
    这就好比 QQ 邮箱里的压缩文件预览功能一样,从技术上一点都不难实现,本质上就是后台云端解压而已,不会涉及重新压缩的,因为重新压缩 md5 肯定会改变。目前防检测的唯一方法就是加密。
    luosuosile
        2
    luosuosile  
    OP
       2018-07-20 00:26:30 +08:00
    @dewi 嗯,对哦即使不做解压缩,好像也能浏览目录
    flynaj
        3
    flynaj  
       2018-07-20 00:30:49 +08:00 via Android
    不需要全部解压,只需要解压需要的部分,类似于 winmount 这个软件
    luosuosile
        4
    luosuosile  
    OP
       2018-07-20 00:36:53 +08:00
    @flynaj thanks 学习了
    easylee
        5
    easylee  
       2018-07-20 00:55:32 +08:00 via Android
    对于问题不大清楚,但是提示楼主,上传压缩包最好进行加密。
    Love4Taylor
        6
    Love4Taylor  
       2018-07-20 01:11:37 +08:00 via Android
    加密并且对包内文件名加密
    someonetwo
        7
    someonetwo  
       2018-07-20 01:16:45 +08:00
    如果压缩包加密的话不知道还能不能检测出来
    aaax7676
        8
    aaax7676  
       2018-07-20 01:18:05 +08:00 via Android
    估计是有人在线解压了
    msg7086
        9
    msg7086  
       2018-07-20 01:21:44 +08:00
    解压又没技术难度……
    度盘最露骨的过滤方法是看文件名关键词。比如广场这个词就是敏感词,文件根本分享不出来。
    zzsx1937
        10
    zzsx1937  
       2018-07-20 06:02:56 +08:00
    双层加密压缩 内层最好改文件后缀
    zhangpeter
        11
    zhangpeter  
       2018-07-20 07:17:45 +08:00
    @msg7086 为什么广场是敏感词?
    loukky
        12
    loukky  
       2018-07-20 07:21:09 +08:00 via Android
    @zhangpeter T A M
    Telegram
        13
    Telegram  
       2018-07-20 08:00:02 +08:00 via iPhone
    @zhangpeter #11 天安门广场,64 事件呗
    leafleave
        14
    leafleave  
       2018-07-20 08:01:53 +08:00 via iPhone
    文件名和已知问题文件的 md5 类数字指纹,这两种都不需要解压文件
    torbrowserbridge
        15
    torbrowserbridge  
       2018-07-20 08:05:34 +08:00 via Android
    666 天朝关键字真多
    nieyujiang
        16
    nieyujiang  
       2018-07-20 08:07:50 +08:00 via iPhone
    压缩并且加密,很多开车群都是这么搞得。
    kkeybbs
        17
    kkeybbs  
       2018-07-20 08:08:43 +08:00 via iPhone
    最低成本的,如果文件是广泛传播的,文件本身的 hash 拉到黑名单。

    一般成本,读 rar 里索引列表部分,根据文件名列表判断,rar 的索引里还有文件的 crc32,也可以作为广泛传播内容的判断。我猜最可能 crc32 作为 hash 判断依据。

    高成本的,尤其是 rar 本身文件名有点敏感的,可以重点对待,解压扫描里面的内容,不过不现实。
    jmercer
        18
    jmercer  
       2018-07-20 08:21:01 +08:00
    在这里说 64 会不会被封[doge]
    badcode
        19
    badcode  
       2018-07-20 08:25:59 +08:00 via iPhone
    压缩文件,都把加密文件名勾上……
    a566
        20
    a566  
       2018-07-20 08:42:58 +08:00 via Android
    7z 好像可以逃过
    kokutou
        21
    kokutou  
       2018-07-20 08:49:44 +08:00 via Android
    rar 加密码,然后勾上加密文件名就行了。。。。
    annielong
        22
    annielong  
       2018-07-20 09:23:13 +08:00
    rar 加密码,加密文件名,最好再加一个任意的随机文件,以免压缩包已存在
    imdong
        23
    imdong  
       2018-07-20 09:30:48 +08:00
    文件名检测,头信息特征检测。
    比如一个压缩包,检查压缩包特征是否检测过,检查文件名是否有关键词。
    获取压缩包文件列表,检查压缩包内文件名是否有关键词。
    获取压缩包内文件 CRC (类)是否在黑名单。
    最不济,尝试读取压缩包内每个文件的头信息(前一段)和现有文件对比。
    还要严格,那就?所有文件解压出来,图片视频走 AI 识别?
    woodvillage
        24
    woodvillage  
       2018-07-20 09:36:15 +08:00
    你不是一个人
    RyougiShiki
        25
    RyougiShiki  
       2018-07-20 09:45:59 +08:00
    我遇到的情况是 七牛上传.avi 会失败,.rar 就没事。
    dalieba
        26
    dalieba  
       2018-07-20 11:31:43 +08:00 via Android
    那就上传一份加密的 RAR 试试看吧。
    workspace
        27
    workspace  
       2018-07-20 12:23:51 +08:00
    tar tf 只看,不解压
    nikolai
        28
    nikolai  
       2018-07-20 12:40:45 +08:00
    有人在线解压过,文件 md5 被认证了
    metorm
        29
    metorm  
       2018-07-20 12:43:05 +08:00 via Android
    如果是大路货压缩文件,直接 md5 匹配上就可以了
    t6attack
        30
    t6attack  
       2018-07-20 13:10:14 +08:00   ❤️ 2
    文件名关键词+文件指纹。别的没了。根本没有什么图像识别、语音识别、机器学习 乱七八糟这些。

    假如有个有个文件叫 v2ex-001.avi ,被 1 万个用户离线到自己网盘里。那么这个文件在服务端实际是 1 个,而不是 1 万个。这个文件被判定为 A 片,那么 1 万个用户点开全部变成“温馨提示”。

    一份文件,被多少个网盘保存。服务端那边看的一清二楚。人工审查,只针排名靠前的那些文件就够了。
    至于只被一个网盘保存的文件,没人查你。也查不过来。

    你把 v2ex-001.avi 截掉 1 秒,文件指纹就变了,然后再上传。就可以正常下载、观看。这是你的私密文件,全球仅此一份。不会被检查。但如果你分享出去,被很多人下到自己网盘里,就有可能变成“温馨提示”。
    图片也是一个道理。一张广泛传播的裸照,你用 win 绘图里的铅笔,在角落里点个点,再保存。它就是另一个文件了,全球只此一份。传上去以后,正常浏览、正常下载。
    luosuosile
        31
    luosuosile  
    OP
       2018-07-20 13:19:56 +08:00
    @t6attack 学习了,感谢
    JamesR
        32
    JamesR  
       2018-07-20 13:55:35 +08:00 via Android
    有纱布在线解压了,就这么简单。
    KevZhi
        33
    KevZhi  
       2018-07-20 13:56:07 +08:00 via iPhone   ❤️ 1
    @t6attack
    BT 下载的 AVI 格式,转码重新压制成 h264 的 mp4 并自定了码率,改名并去除敏感关键字,非光速上传后,未分享的情况下秒封

    甚至磁力下载的黄油 ISO 镜像都被封过


    显然此过程 AI 图像音频识别都不一定用得到,除去对比文件头,文件名,hash,百度云更可能直接截取某一帧(例如第五秒第 20 帧)图像进行比对(以图搜图)黑名单数据库。


    另外别忘了行为检测,正常人看正常视频应该不会一直快进吧。当这个文件被大量分享,大多数人都不断的快进的时候,这个视频可能已经进入枪毙名单了

    当然目前 AI 的力量也十分强大,鉴黄服务也非常成熟了,但是还存在一定误封的情况,但是这都是唐马儒们的有力工具。

    也别忘了人的力量,戒色吧老哥的小广告都能贴到大学教学楼卫生间里,撸完举报的大有人在。还有一些民间组织、家长组织也在做这些事情。

    百度内部当然也培养了一堆唐马儒,他们每天做的就是坐在大屏幕前,大屏幕就像监控中心一样,轮流不断播放着每个用户网盘里被大量分享的文件,当他们发现一个,点点鼠标那个文件就八秒了。
    Tlin
        34
    Tlin  
       2018-07-20 13:58:05 +08:00
    @t6attack 老哥也是深有体会啊。之前我也是这样,跟别人同样的文件实际在云端只有一个的,云端删了大家的都没了(不知道秒传是不是这个原理:限读取你的文件里面的一些内容数据结构等等,在云端进行比对,如果有就把云端的给你,再把你的文件名赋值上去)
    flyoungstudio
        35
    flyoungstudio  
       2018-07-20 14:11:12 +08:00
    PGP Desktop,你值得拥有
    go
        36
    go  
       2018-07-20 14:14:28 +08:00
    @t6attack #30 牛啊 一直以为 AI+人工智能判断 视频图像分析 自动替换成温馨提示
    按照你的说法 也就是检查热门文件 。。
    go
        37
    go  
       2018-07-20 14:16:21 +08:00
    @KevZhi #33 不断快进这段 笑了
    hu5ky
        38
    hu5ky  
       2018-07-20 17:23:27 +08:00
    应该是对比文件 MD5 值这类技术,你一个压缩包没有加密码,然后有人在线解压,导致被服务器检测到,然后查看以后对这个文件的 MD5 值,做封禁处理,然后就是你看到的封禁信息。
    yjd
        39
    yjd  
       2018-07-20 17:27:04 +08:00
    你加个中文密码。23333
    f2ck
        40
    f2ck  
       2018-07-20 17:30:36 +08:00
    压缩 加密一哈 就可以了
    Raymon111111
        41
    Raymon111111  
       2018-07-20 17:31:54 +08:00
    加密啊
    psychoo
        42
    psychoo  
       2018-07-20 17:35:21 +08:00
    @KevZhi 还有在同一时刻附近停止播放并关闭网页 hhhhh
    crab
        43
    crab  
       2018-07-20 17:35:25 +08:00
    @KevZhi 老哥有经验。快进撸点哈哈!
    mmdsun
        44
    mmdsun  
       2018-07-20 19:32:01 +08:00 via Android
    你压缩包设置密码就行。
    akira
        45
    akira  
       2018-07-20 19:34:35 +08:00
    @go 在可见的未来,你以为的这些技术也会成为现实
    LudwigWS
        46
    LudwigWS  
       2018-07-20 19:41:03 +08:00
    向老司机们学习
    EthanZhuXE2V
        47
    EthanZhuXE2V  
       2018-07-20 19:52:55 +08:00 via Android
    在线解压就会被封
    wsc449
        48
    wsc449  
       2018-07-20 20:03:01 +08:00
    向老司机们学习
    pWHx3x96
        49
    pWHx3x96  
       2018-07-20 21:37:15 +08:00
    @psychoo pornhub 那个热力图的思路好像也是这样 hhh
    JerryCha
        50
    JerryCha  
       2018-07-20 22:45:41 +08:00
    大概就是有会员云解压了吧,然后就上记录了。记得以前有在线预览 avi 过了不久就 8s 的
    arabshia
        51
    arabshia  
       2018-07-21 08:33:11 +08:00
    向老司机们学习
    winglight2016
        52
    winglight2016  
       2018-07-21 14:01:31 +08:00
    @torbrowserbridge 很多啦,像 89 这么常见的词就是关键字,以前看小说,八九玄功,八九不离十都出不来
    sungkyu
        53
    sungkyu  
       2018-07-22 09:32:38 +08:00
    楼主,Winsw1.9.exe 那两个链接都失效了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3797 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 10:21 · PVG 18:21 · LAX 03:21 · JFK 06:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.