V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
ddup
V2EX  ›  分享创造

一个私人“大数据”搜索引擎,秒搜硬盘,邮箱,笔记,历史剪切板全文

  •  
  •   ddup · 2018-09-28 15:27:49 +08:00 · 14176 次点击
    这是一个创建于 2254 天前的主题,其中的信息可能已经有所发展或是发生改变。

    部分功能已经可用了

    先说下功能和思路

    免费,一个私有化搜索引擎,通过它你可以以搜索引擎的方式搜索你的硬盘,邮箱,笔记,历史剪贴板。 在关键时刻大幅提升工作效率。

    解决什么问题

    个人工作数据搜索不便,确定电脑上存在但就是找不到

    优点:

    • 传统搜索软件,输错一个字就搜不出,我们不会,我们以相似度来匹配,而不是关键词匹配
    • 通过一个入口,可同时搜硬盘,邮箱,笔记,历史剪切板
    • 除了可以搜文件名,还可以搜文件全文内容,压缩包内文件列表等,邮件也一样,可以搜附件,甚至附件内的内容
    • 速度和 Everything 差不多快
    • 跨平台,支持 Windows,MacOS,Linux
    • 后续还可找别人电脑上分享的相似资料,或彼此交换资料互惠互利等。

    缺点:

    • 索引文件较大

    和 Windows 自带全文索引的区别

    • 含人性化处理,比如一个 Word,不是简单的提取出里面的 Text 文本了事,还会将 Word 内的一级、二级、三四五级标题特殊处理,搜索时匹配到标题比匹配到普通文本有更靠前的排名,这符合实际搜索的需要。
    • Windows 索引不能搜笔记,历史剪切板,搜邮件必须 Outook
    • Windows 索引输错一个字就搜不出
    • Windows 索引系统重装后丢失,我们不会

    还有企业版

    挖掘潜藏在员工电脑的工作资料信息孤岛,聚合起来,自动形成内部资料搜索引擎、自动形成知识库和工作数据信息门户。 数据安全和隐私,也有考虑,企业可以部署私有云版,而员工是自行选选择哪些数据允许连入企业云。

    使用效果截图

    基于相似度匹配

    搜索示例:基于相似度匹配

    输错也能搜

    搜索示例:输错也能搜

    词记不全也能搜

    搜索示例:词记不全也能搜

    全文索引

    搜索示例:全文索引

    感兴趣?

    目前内测中,试用,或者有什么看法可以加我 QQ 1926510340

    第 1 条附言  ·  2018-10-24 00:22:20 +08:00

    内测结束,产品已发布,用户反馈实际搜索效果非常好,欢迎下载 https://bbs.guangmang.xyz/d/1

    第 2 条附言  ·  2019-06-27 16:03:51 +08:00
    归海数据已发布全新版本,快如 Everything 准如搜索引擎 http://guihaidata.com/
    第 3 条附言  ·  2020-01-05 23:58:25 +08:00
    # 经过数个月打磨优化,归海数据 2.0 Beta 版本发布了!

    ## 这个版本优化了历史版本的大量问题,并新增了如下功能:

    - 更灵活的设定索引设置
    - 添加任意文件夹至索引
    - 设定索引级别:仅文件名 /全文 /实时
    - Windows 系统 NTFS 磁盘可选疾速索引模式。
    - 恢复了文件变更检测( Beta )
    - 可选作为服务启动(为了更高效的文件变更检测,变更检测不用再全盘扫描了)
    - 索引速度比以往更快
    - NTFS 磁盘无索引搜索比以往快 3 倍( 1s 以内)
    - 可以自定义索引数据库文件的存放目录


    下载地址:

    Windows 64 位版本:
    https://guihaidata.com/download/GuiHaiData-Setup-2.0.0.exe
    第 4 条附言  ·  2020-07-06 21:38:10 +08:00
    # 归海数据个人版 和 Everyting 有什么不同?
    归海数据基于搜索引擎技术,实现了 Everyting 的速度+搜索引擎的准确度。能够分词和容错,关键词存在些许错误也能搜出,结果也更加精准。
    归海数据支持全文搜索,且基于搜索引擎技术,比较智能,关键词模糊有错误都能给出最准确的结果。
    支持通过拼音 /简拼进行搜索(需等索引生成后)

    # 和 Windows 自带全文搜索有什么不同?
    Windows 自带搜索(包括 Windows 全文索引)的问题是不能分词,所以不能模糊搜索,导致搜索不到结果或者有很多遗漏。

    # 必须索引后才能搜索吗
    不必,归海使用了混合技术,在 Windows 系统下如果允许管理员权限,能够实现无索引情况下的快速搜索,这个无索引快速搜索技术与 Everyting 相同,但因为归海使用了搜索引擎技术,搜索结果更加精准。
    在索引生成完成后,搜索结果精准度会进一步提高,而且能够通过拼音 /简拼搜索文件名,以及全文搜索 Word 、Excel 、PPT 、PDF 、TXT 、MD 、Zip 等文档内容。

    # 占用多少系统资源?
    静默状态下占用 90MB ~ 140MB 内存,0% CPU 占用
    索引生成中占用 200MB ~ 500MB 内存,0 ~ 10% CPU 占用
    索引文件大小约为原文件的 0.008%,100G 文件的索引大小约为 800MB
    107 条回复    2020-08-04 10:34:19 +08:00
    1  2  
    ddup
        101
    ddup  
    OP
       2018-10-27 09:04:58 +08:00 via Android
    @kersbal 加下我 QQ,帮你解决下 1926510340
    ddup
        102
    ddup  
    OP
       2018-10-29 23:03:28 +08:00
    用了觉得好的帮忙推荐支持一下吧 ;-)
    ddup
        103
    ddup  
    OP
       2018-10-30 22:15:57 +08:00
    今天增增加了标签云功能(从数据中自动挖掘并生成),目前标签云的表现还比较初级,但是数据挖掘迈出的第一步!
    所有数据计算过程都在本地完成,可放心使用。
    wwwwzf
        104
    wwwwzf  
       2019-05-22 18:59:32 +08:00
    网站下面版权信息都没的?。。。好奇特的主页官网
    ddup
        105
    ddup  
    OP
       2020-01-05 23:58:40 +08:00
    # 经过数个月打磨优化,归海数据 2.0 Beta 版本发布了!

    ## 这个版本优化了历史版本的大量问题,并新增了如下功能:

    - 更灵活的设定索引设置
    - 添加任意文件夹至索引
    - 设定索引级别:仅文件名 /全文 /实时
    - Windows 系统 NTFS 磁盘可选疾速索引模式。
    - 恢复了文件变更检测( Beta )
    - 可选作为服务启动(为了更高效的文件变更检测,变更检测不用再全盘扫描了)
    - 索引速度比以往更快
    - NTFS 磁盘无索引搜索比以往快 3 倍( 1s 以内)
    - 可以自定义索引数据库文件的存放目录


    下载地址:

    Windows 64 位版本:
    https://guihaidata.com/download/GuiHaiData-Setup-2.0.0.exe
    Mindjet
        106
    Mindjet  
       2020-08-03 19:48:52 +08:00
    @ddup #39 「个人版免费无广告」很赞,你们也许可以找名人推广,得到 APP 上很多作者有很好的号召力,其中李笑来自己在 Mac 上搭建过这个系统,很多人想用但是找不到,你们这个显然更好。
    ddup
        107
    ddup  
    OP
       2020-08-04 10:34:19 +08:00
    @Mindjet #105 是要找人推广推广了,得到 APP 我经常用,嘿嘿。


    我们后续有更棒的功能,会对硬盘数据进行数据挖掘和数据分析,不仅限于提供搜索引擎服务,可以关注我们的后续。


    网上搜索了以下,李笑来你指的是这个吧:

    李笑来在《七年就是一辈子》中写过一篇文章 什么是更好的知识?中这样说:

    在硬盘越来越大越来越便宜,云存储满天飞的时代里,“博闻”更重要,“强识”却早已不再是什么优势了。
    我已经有很长的时间读书不写笔记了。为什么?因为有更大的硬盘了,有无限大的云存储了,更为关键的是 MacOS 有系统级内嵌的全文检索功能。于是,我尽量只买电子书,然后转换成 epub 格式存在硬盘里。读书的时候专心读,有用的地方刻意记住几个关键字,将来用得到的时候,全文检索一下,就可以轻松找到出处 —— 当然也有偶尔死活想不起来关键字要隔上好几天才想起来的情况…… 随着时间的推移,写上一两句批注的需求越来越少,若是真有启发,干脆写篇完整的文章算了。也就是说, 把大量用来“牢记”的时间,直接输入到“践行”之中,好像更为牢靠,更为划算。
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2580 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 00:04 · PVG 08:04 · LAX 16:04 · JFK 19:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.