V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Norths
V2EX  ›  分享创造

撸了一个网课题库 API(300W)

  •  
  •   Norths · 2020-06-21 10:55:19 +08:00 · 7365 次点击
    这是一个创建于 1376 天前的主题,其中的信息可能已经有所发展或是发生改变。

    疫情在家上网课,用过 APP 、公众号、脚本查题,渐渐接触到了网课查题这个世界
    逐渐萌生了自己建一个题库的想法,于是开搞
    从前端到后端到数据库、文档,基本都是自己一点一点磨出来的。官网的单页偷懒就悄咪咪套了个模板
    本以为就是一个查询查询查询的操作,但我还是想得太简单了
    第一次面对上百万的数据量,20 秒的查询时间让我直接哭出了声,自学的那点可怜的知识瞬间不够用了啊。
    紧急补习了数据库优化..现在采用分词+索引的方式,基本能达到使用要求
    别看官网写得挺那啥的,其实也就那么回事儿,才刚刚上路,不是很完善,要走还很长
    算是一次因兴趣而生,边学边练的作品吧
    现在题量已经有 300 多万了,也在一步步的扩充,目前是通过未命中题目记录后台再收录的方式来补充题目,希望有兴趣或者有更好的办法的可以一起扩充题库
    如果可以的话,欢迎各位推介一下,先感谢了~!
    N1qaVA.md.png

    N1bX38.md.png

    如果有什么不好的地方,欢迎巨佬指正!斧正!教育!

    附上地址:
    官网: https://www.vanswo.net
    文档: https://docs.vanswo.net
    体验: https://wk.wanshiwu.asia

    24 条回复    2020-06-26 22:33:32 +08:00
    Norths
        1
    Norths  
    OP
       2020-06-21 11:10:45 +08:00
    测试:
    1002
    rYY785HWsRWOoXSaSAOqo7Ix86a0HrTk
    octobersnow
        2
    octobersnow  
       2020-06-21 12:09:37 +08:00 via Android
    这官网的魔板是啥啊
    Higurashi
        3
    Higurashi  
       2020-06-21 12:22:27 +08:00
    顶一个
    cuikai1
        4
    cuikai1  
       2020-06-21 12:27:57 +08:00   ❤️ 1
    问下 300 多万的题库是怎么弄出来的?
    dongisking
        5
    dongisking  
       2020-06-21 12:59:54 +08:00
    niubia
    justin2018
        6
    justin2018  
       2020-06-21 13:05:22 +08:00
    ![MzOzFZE]( )
    guoer
        7
    guoer  
       2020-06-21 14:46:10 +08:00
    律师函警告,楼主注意版权问题
    xm5211
        8
    xm5211  
       2020-06-21 15:50:18 +08:00
    蹲一个网站模板
    Telegram
        9
    Telegram  
       2020-06-21 16:00:47 +08:00
    咦,好像不错的样子,哈哈
    Littleor
        10
    Littleor  
       2020-06-21 17:04:18 +08:00 via iPhone
    一直很好奇这种网站的图是咋做的
    ShallowAi
        11
    ShallowAi  
       2020-06-21 22:06:08 +08:00 via Android
    建议接入 Cloudflare CDN 防止滥用
    题库扩充和完善可以接入和二次开发 greasyfork 的各种答题脚本
    nc4697
        12
    nc4697  
       2020-06-21 22:48:19 +08:00
    还带刷课的吗。话说这个国内监管如何
    ManNotFound
        13
    ManNotFound  
       2020-06-22 04:34:19 +08:00 via iPhone
    很好的想法。
    市面上已经有成熟的纸质作业搜题的产品了,网课搜题有搞头。
    查询的优化你应该是做了倒排文件吧,还可以从查询策略上做优化。
    这东西再接个 OCR,就完整了。
    我是个产品,挺羡慕你们技术有想法自己可以实现的。
    lonelymarried
        14
    lonelymarried  
       2020-06-22 11:24:34 +08:00
    我也在爬题库,300w 是咋爬到的。我买了代理还没爬完。ip 封的太快
    Norths
        15
    Norths  
    OP
       2020-06-22 14:03:30 +08:00
    @cuikai1
    @lonelymarried
    我是机缘巧合之下弄回来了一个有点题量积累的题库,然后没有的再去爬,这样子可能比直接从零开始快捷了一点叭
    Norths
        16
    Norths  
    OP
       2020-06-22 14:08:07 +08:00   ❤️ 1
    @octobersnow
    @xm5211
    模板是在站长之家翻到的,一直丢着没用,这次用上了
    http://sc.chinaz.com/moban/191014007650.htm
    改了谷歌的字体库为中科大的,还有一些引用地址,下面联系方式是画的 QQ 微信的 svg
    Norths
        17
    Norths  
    OP
       2020-06-22 14:21:34 +08:00
    @guoer
    嗯嗯,谢谢提醒,我会注意的
    @nc4697
    光明正大肯定是不可能的了,只能够是随缘才有得刷一下这样子
    @ManNotFound
    谢谢大佬的建议,会考虑往这个方向去尝试尝试的!话说这么大的数据量对我来说也是第一次面对,也一直在查各种资料寻找更优的办法。
    nc4697
        18
    nc4697  
       2020-06-22 14:30:35 +08:00
    @Norths #17 可以跟函授站合作,不过他们资源也挺多的,只能压价,利润不会太高
    bfqymmt
        19
    bfqymmt  
       2020-06-22 15:53:44 +08:00
    这个模板真好看。
    Austin2035
        20
    Austin2035  
       2020-06-23 19:06:55 +08:00
    最近只采集了 60W 道题目,也是醉了,不知道哪里有全面的题库可以供采集
    Norths
        21
    Norths  
    OP
       2020-06-23 22:31:07 +08:00
    @lookcos
    数据互换吗?也许你有我没有的题目
    ZaneCheney
        22
    ZaneCheney  
       2020-06-26 10:15:43 +08:00 via iPhone
    [狗头]为啥我打开网址提示这个弹出框:
    通知
    我说有的朋友也太不厚道了吧?
    一天十几二十万地抓,真当我是瞎还是瞎?
    又不是不开放给你用,几十块钱会要了你马的葬礼费还是你爸没钱挖出来了?
    fk5555
        23
    fk5555  
       2020-06-26 13:13:17 +08:00
    输入关键词 如“法律”,只能出现一条题目答案,相关题目应该很多才对~
    pandasoda
        24
    pandasoda  
       2020-06-26 22:33:32 +08:00
    查询的速度有些慢了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1183 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 23:08 · PVG 07:08 · LAX 16:08 · JFK 19:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.