V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fox0001
V2EX  ›  分享发现

简单折腾了一下 privateGPT

  •  
  •   fox0001 · 2023-05-18 09:23:30 +08:00 via Android · 2301 次点击
    这是一个创建于 589 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前几天看到 privateGPT 的新闻,立马就部署跑一下,但一直不成功。今天在 Mac Mini M1 上终于跑起来了。机器的内存是 16GB 。

    总体感觉是高级 Solr 。能理解问题,但只是返回已索引的字符串。(“索引”一词可能用在 AI 方面不适当,但大家应该能理解)。就是相比 ChatGPT ,没有总结。但是,我只是简单地索引一个文档,然后进行查询。

    然后就是,英文的效果好一点,中文几乎不能回答。可能要换个模型。github 上的 issue 有提到。

    经过昨天的更新,索引速度很快,也大大降低了内存占用。但是回答问题的查询速度,慢很多,内存占用超过 12GB ( Mac mini 上显示的)。家里电脑因为内存不足而导致回答问题的进程挂掉。

    项目地址 https://github.com/imartinez/privateGPT

    以下是一些简单的实验结果:

    1. 只索引项目自带的文档。 - 问:How many states of America? - 答:The United States is a member among with 20 other nations. - 该答案在原文第 35 行(包含空行)

    2. 只索引《 SQL 必知必会.pdf 》 - 中文问使用 SQL 怎样删除数据,答非所问。 - 英文问 How to delete data with SQL ?能找到 DELETE 的介绍,但是整段英文。

    3. 只索引《第一次亲密接触.txt 》 - 中文问题都没能回答。例如:轻舞飞扬是男的还是女的?

    4 条回复    2023-05-26 07:50:07 +08:00
    elmagnificogg
        1
    elmagnificogg  
       2023-05-18 09:43:30 +08:00
    试了一下 PandaGPT ,直接读 PDF 返回问题答案和索引页,索引页会给好几个,其中有一个是正确的

    但是回答问题还是好慢好慢,这效率,除非你文档超级多,单文档超级长,不然和自己手动搜一下关键词,还是慢很多的
    elmagnificogg
        2
    elmagnificogg  
       2023-05-18 09:46:02 +08:00
    PandaGPT 支持中文,但是回答一个问题估计时间都是 20s 以上

    不知道 op 的 privateGPT 要多久

    目前感觉这种效率是不如关键字本地直接搜索的,本地搜索加人工筛选都要不了 20s
    fox0001
        3
    fox0001  
    OP
       2023-05-18 10:41:41 +08:00 via Android
    @elmagnificogg #2 这个 privateGPT 主要是本地部署和离线运行。回答问题也是很慢。
    youthfire
        4
    youthfire  
       2023-05-26 07:50:07 +08:00 via iPhone
    我的 18 年 mbp ,16g 内存,回答一个问题超过了 10 分钟,质量也低。我 ingest 了两份普通 pdf 报价单,不超过 20 项。英文询问了其中某个件号的,乱糟糟给了整个报价表。这个效率基本上失去了实用性。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2727 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 12:27 · PVG 20:27 · LAX 04:27 · JFK 07:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.