V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Justin3go
V2EX  ›  分享创造

做了一个阿里云盘的搜索引擎

  •  9
     
  •   Justin3go · 239 天前 · 9535 次点击
    这是一个创建于 239 天前的主题,其中的信息可能已经有所发展或是发生改变。

    做了一个阿里云盘的搜索引擎,体验地址pan.justin3go.com

    技术细节可以看这两篇文章

    1. 你来你也可以做一个网盘搜索引擎
    2. 浅谈搜索引擎原理

    简化了很多搜索引擎的复杂策略,但也算是一个微型搜索引擎了

    第 1 条附言  ·  226 天前
    优化了一波搜索建议,就是搜索框的下拉框,以及一些小 BUG 的修复,欢迎各位尝试。
    119 条回复    2024-04-01 13:18:45 +08:00
    1  2  
    ryansvn
        1
    ryansvn  
       239 天前
    试用一下 ,感谢提供
    opengps
        2
    opengps  
       239 天前
    主网站开场动画相当炫酷!
    monkeyWie
        3
    monkeyWie  
       239 天前
    挺好的,收藏一波
    lvtuyukuai
        4
    lvtuyukuai  
       239 天前
    挺好用的
    Cosmic4764
        5
    Cosmic4764  
       239 天前
    为什么返回结果这么快?牛逼哎
    yelog
        6
    yelog  
       239 天前
    牛的, 收藏了
    quotationm
        7
    quotationm  
       239 天前
    分页按钮在手机上显示不出来,14pm
    lvtuyukuai
        8
    lvtuyukuai  
       239 天前
    对搜索词也进行了分词吗?我搜“冰血暴”,结果都是包含“冰”、“血”、“暴”单字的
    McCall2887
        9
    McCall2887  
       239 天前
    挺好的,感谢提供
    dooonabe
        10
    dooonabe  
       239 天前   ❤️ 1
    @lvtuyukuai #8 我搜索“双峰”也是这样,没有想要的资源
    SiuKwan
        11
    SiuKwan  
       239 天前 via iPhone
    感谢提供
    excitedXXX
        12
    excitedXXX  
       239 天前
    搜索了一下“关于我和鬼”
    返回结果好快啊,牛逼!
    linuxgo
        13
    linuxgo  
       239 天前
    鼓励丅
    yangwcool
        14
    yangwcool  
       239 天前
    好东西。网盘搜索引擎有法律风险吗?我是说会不会过一段时间就 404 。
    toan
        15
    toan  
       239 天前
    不错,感谢提供
    timnottom
        16
    timnottom  
       239 天前   ❤️ 1
    借楼推荐一个聚合网盘、磁力搜索引擎: https://hunhepan.com/

    支持 PC 端(非网页端),安卓端
    NeedforV2
        17
    NeedforV2  
       239 天前
    速度很快,感谢 OP
    gary36
        18
    gary36  
       239 天前 via Android
    速度太快了,牛🐮
    Trinity99
        19
    Trinity99  
       239 天前
    感谢 op ,提个小建议,能不能显示一下资源的大小,毕竟大家都想看画质高的,阿里云一定要转存了,才能看文件大小
    so2back
        20
    so2back  
       239 天前
    收藏了
    pengyOne
        21
    pengyOne  
       239 天前
    返回速度好快啊,牛
    jymsy
        22
    jymsy  
       239 天前
    中文分词做的不行
    WashFreshFresh
        23
    WashFreshFresh  
       239 天前
    哇,厉害了,文章思路清晰,看的我也想写个。
    goodryb
        24
    goodryb  
       239 天前
    iPhone 手机上用,点击跳转就跳转到 APP 主界面,看不到资源
    Henry399
        25
    Henry399  
       239 天前
    感谢感谢
    anguliuyun
        26
    anguliuyun  
       239 天前
    支持支持
    bjfane
        27
    bjfane  
       239 天前
    支持,分词有问题,
    itxh
        28
    itxh  
       239 天前
    这速度真不错,收录到了我的网站: https://www.wangdu.site/software/1317.html ,希望对你有所帮助
    ImmerTry
        29
    ImmerTry  
       239 天前
    感谢分享,已经使用到
    haozes
        30
    haozes  
       239 天前
    不错
    ramdava
        31
    ramdava  
       239 天前
    中文分词,感觉不太行,可以换换试试
    Justin3go
        32
    Justin3go  
    OP
       239 天前
    @lvtuyukuai 嗯,分词器用了 ES 的 ik_max_word ,可能不算常用词汇吧
    Justin3go
        33
    Justin3go  
    OP
       239 天前
    @itxh 谢谢了
    Justin3go
        34
    Justin3go  
    OP
       239 天前
    @opengps 哈哈哈就一个视频放上去了
    Justin3go
        35
    Justin3go  
    OP
       239 天前
    @quotationm 确实有这个问题,后面修复,但优先级不高
    Justin3go
        36
    Justin3go  
    OP
       239 天前
    @yangwcool 不是盈利网站,就纯粹的技术展示
    Justin3go
        37
    Justin3go  
    OP
       239 天前
    @Trinity99 这个不好做,需要请求阿里云盘的接口,容易违规,而我这种就只是类似于搜索的文章
    Justin3go
        38
    Justin3go  
    OP
       239 天前
    @goodryb 不太清楚,手机种链接点击是自动跳转的网盘 APP 的,可能是链接中的资源失效了
    fak111
        39
    fak111  
       239 天前
    能不能加个阿里双胞胎兄弟夸克的:)
    Justin3go
        40
    Justin3go  
    OP
       239 天前 via Android
    @fak111 重复性工作了,暂时不打算做,并不盈利,只是想实践一下技术
    amlee
        41
    amlee  
       239 天前
    做的很好啊,再完善完善可以商业化了
    usauk1998
        42
    usauk1998  
       239 天前 via Android
    搜不了张学友
    Justin3go
        43
    Justin3go  
    OP
       239 天前
    @amlee 不太敢商业化,就技术分享,免费给大家用吧
    Justin3go
        44
    Justin3go  
    OP
       239 天前
    @usauk1998 爬虫一直在运行,有可能还没收集到,也有可能互联网上没有人分享这个资源
    amlee
        45
    amlee  
       239 天前
    @Justin3go 能否问下,你做的这个网盘搜索,服务器用的什么配置?
    Equiliu
        46
    Equiliu  
       239 天前
    不能获取提取码
    Justin3go
        47
    Justin3go  
    OP
       239 天前
    @Equiliu 提取码的获取策略是获取互联网某社区帖子中分享链接附近的,有些没有提供提取码,或者根本不需要提取码,亦或者没有提取码字眼的就没有获取
    Justin3go
        48
    Justin3go  
    OP
       239 天前
    @amlee 4 核 8g ,但没吃满
    Justin3go
        49
    Justin3go  
    OP
       239 天前
    @Justin3go 目前的情况来看,2 核 4g 差不多合适
    amlee
        50
    amlee  
       239 天前
    @Justin3go scrapy es nestjs web 全部都在一台机器上?
    Justin3go
        51
    Justin3go  
    OP
       239 天前
    @amlee web 应用是单独一台服务器,ES 爬虫是另外一台
    amlee
        52
    amlee  
       239 天前
    @Justin3go 谢谢
    cencoroll
        53
    cencoroll  
       239 天前
    英文搜不出来,例如 Doctor.Strange 就搜不到了
    zololiu
        54
    zololiu  
       239 天前
    怎么可以这么快,惊呆了
    baoei
        55
    baoei  
       239 天前
    速度确实是快~ 但是搜索出来的结果太差. 或者说资源太少
    heylogo
        56
    heylogo  
       239 天前   ❤️ 1
    建议:同意声明并跳转后,原弹出框应该要关闭,不然回到该页还得手动关一下
    Sakura0Tears
        57
    Sakura0Tears  
       239 天前
    666666666666 厉害
    Justin3go
        58
    Justin3go  
    OP
       239 天前
    @baoei 还没做多久,爬虫一直在运行,资源还在搜集
    Justin3go
        59
    Justin3go  
    OP
       239 天前
    @heylogo 确实,用户体验还是你这样好一点,感谢建议
    Justin3go
        60
    Justin3go  
    OP
       239 天前
    @baoei 然后就是互联网上的资源可能太多了,对比下来阿里云盘的资源就太少了,爬虫策略可能还得优化一下,但目前没什么思路
    sunnicholas
        61
    sunnicholas  
       239 天前
    资源太少了?
    quietjosen
        62
    quietjosen  
       239 天前
    厉害厉害,点赞。
    mylxsw
        63
    mylxsw  
       239 天前
    已收藏
    formant
        64
    formant  
       239 天前
    牛逼普辣斯,速度很快,感谢
    BBCCBB
        65
    BBCCBB  
       239 天前   ❤️ 1
    ik 分词器很老了, 12 年开始就没更新了.. 词库落后很多.. 可以尝试下其他的, hanlp 啥的..
    Jirajine
        66
    Jirajine  
       239 天前 via Android
    推荐试试 meilisearch ,感觉一般的项目完全优于 ES
    romisanic
        67
    romisanic  
       239 天前
    就这速度而言,必须点赞
    不过好像搜索效果还是差点
    总体好评!
    JRay
        68
    JRay  
       239 天前
    速度好快啊
    Justin3go
        69
    Justin3go  
    OP
       239 天前
    @BBCCBB 可以
    Justin3go
        70
    Justin3go  
    OP
       239 天前
    @Jirajine 周围也有一些人使用过这个,我对 ES 稍微熟悉一点,还行
    kuawo
        71
    kuawo  
       239 天前
    速度挺快的, 不过好像搜到的资源 不多 我搜 平凡的世界 狂飙 都找不到
    Justin3go
        72
    Justin3go  
    OP
       239 天前
    @sunnicholas 慢慢来嘛,爬虫正在收集中,没有想要的资源:1.互联网上没有使用阿里云盘分享该资源; 2.爬虫还没有爬到该位置; 3.有些网站禁止爬虫进入
    JensenQian
        73
    JensenQian  
       239 天前 via Android
    支持
    tagtag
        74
    tagtag  
       239 天前
    收藏了
    PickOne
        75
    PickOne  
       239 天前
    感谢分享~
    galphaxie
        76
    galphaxie  
       239 天前   ❤️ 1
    反馈:
    1. 分词还可以优化, 搜"go 专家编程"结果首页都没有资源命中;
    2. 点下一页按钮, 列表就被清空了, 在首页看的时候明明搜索结果是有多页的.
    didididididi
        77
    didididididi  
       239 天前
    速度好快 !
    zhw2590582
        78
    zhw2590582  
       239 天前
    速度这么快
    2NUT
        79
    2NUT  
       239 天前
    交互体验惊人
    Justin3go
        80
    Justin3go  
    OP
       239 天前 via Android
    @galphaxie 可以,感谢反馈
    poorcai
        81
    poorcai  
       239 天前
    厉害了,收藏了
    hsksg
        82
    hsksg  
       239 天前
    https://www.alipansou.com/ 这个也不错噢,资源多些
    jtcc
        83
    jtcc  
       239 天前
    牛逼,收藏了
    gogolive
        84
    gogolive  
       239 天前
    多少数据了?最大的问题网盘资源过期很严重
    Justin3go
        85
    Justin3go  
    OP
       238 天前
    @gogolive 确实,目前爬虫运行了 2 周多,数据 1w 左右,爬虫的策略还得优化,去过滤那些不可能包含网盘资源的链接的网址来节省资源,但目前没啥思路
    Justin3go
        86
    Justin3go  
    OP
       238 天前
    @hsksg 对,这个网址我也看到过,参考了它的免责声明哈哈哈哈
    Justin3go
        87
    Justin3go  
    OP
       238 天前
    @2NUT 感谢认可
    brucmao
        88
    brucmao  
       238 天前
    搜索很快啊,不过资源更新没这里快
    https://zhaoziyuan.me
    Ccf
        89
    Ccf  
       238 天前
    的确很快啊
    512357301
        90
    512357301  
       238 天前 via Android
    @lvtuyukuai 可以试试加英文半角双引号,只是不知道 op 的分词系统是否能识别英文半角双引号
    sheller
        91
    sheller  
       238 天前
    @brucmao 貌似打不开,科学上网也不行
    Justin3go
        92
    Justin3go  
    OP
       238 天前
    刚收到短信,没想到这么快这个网站就被 DDos 攻击了,终于轮到我了
    PecanBrant
        93
    PecanBrant  
       238 天前
    @Justin3go #92 啊?意思不能这个搜索又不能用了吗
    Justin3go
        94
    Justin3go  
    OP
       238 天前
    @PecanBrant 目前还能用,不过要看攻击者啥时候攻击了,一攻击就会导致服务器拒绝服务。
    pffrank
        95
    pffrank  
       238 天前
    好像有点问题,搜索后跳转进 APP 不出内容
    SantinoSong
        96
    SantinoSong  
       238 天前
    @itxh #28 这个域名,网赌.net? 🤣
    lwqcode
        97
    lwqcode  
       238 天前
    速度很快,但是似乎准确率不太高
    brucmao
        98
    brucmao  
       237 天前
    @sheller 电信不用代理可以打开,用代理反而打不开了
    lycpang
        99
    lycpang  
       236 天前
    牛的,正好我最近要分享一个 elastic search 搜索原理。。。感谢大佬的搜索原理,我少走好多弯路
    Justin3go
        100
    Justin3go  
    OP
       236 天前
    @lycpang hhhh ,能帮助到大家我也很开心
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2801 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 12:18 · PVG 20:18 · LAX 05:18 · JFK 08:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.