Casibase ( https://github.com/casibase/casibase )是一套开源的基于 Web 的 AI 知识数据库,适合个人或者组织作为自己的专属内部 AI 知识库来使用。GitHub 已达到 1600+ stars ,欢迎体验~
主要功能如下:
在线体验:
源码:
社区反馈:
1
fredweili 294 天前
这是什么?又一个向量数据库?
|
2
cccb 294 天前
向量数据库用的是什么?向量的存储和检索是用什么工具实现的?
|
3
JaguarJack 294 天前
error, status code: 429, message: Requests to the ChatCompletions_Create Operation under Azure OpenAI API version 2023-05-15 have exceeded token rate limit of your current OpenAI S0 pricing tier. Please retry after 13 seconds. Please go here: https://aka.ms/oai/quotaincrease if you would like to further increase the default rate limit.
|
4
coolair 294 天前
和 https://github.com/danswer-ai/danswer/ 比,有啥优势吗?
向量数据库在新文档上传后,会自动刷新吗? |
5
veotax OP @fredweili 内置一个向量数据库,为知识数据库提供向量查询功能
@cccb 内置实现的,可以存储在 MySQL 、Postgres 等数据库中,采用余弦距离作为检索算法 @JaguarJack 可能是演示站同时使用的人有点多,API 限制了,可以稍等下再用哈~ @coolair 可以刷新,相比 danswer 的特点包括:后台管理更为强大、支持计算 API 费用、支持国内大模型、开源版支持单点登录 SSO 等 |
6
weixind 292 天前
https://fastgpt.in/ 还有一个这个。都是实现一样的产品吧。
|
7
jackrebel 292 天前
支持一下.
|
8
boringwheat 292 天前
刚好有这方面的需求,问一下,外挂 Embedding 目前是不是只能从文档内提取啊,结构化数据 JSON 有 api 支持吗?
|
9
tommyshelbyV2 291 天前 1
这个方向有很多人做了,光余弦其实效果不好的。这东西也不好变现
|
10
Bantes 290 天前
https://dify.ai 差不多的产品
|
11
kneo 288 天前 2
不是很确定这东西是不是真的有用。文本搜索就能直接搜出来的标准答案,它会自己重新编一个似是而非的。
|
12
veotax OP @boringwheat 架构是前后端分离的,所有功能都有 HTTP API ,包括 Embedding 的 CRUD API
@kneo 经过多位用户反馈和实际测试,采用 GPT-4 的模型,实测效果还是不错的 |
13
ffgrinder 288 天前
@tommyshelbyV2 我也想请教一下除了余弦之外有什么比较好的实践吗
|
14
MasonXu 287 天前
@kneo 对作者提供的这个不保证结果。但是我做过一个类似的,通过将原始的素材向量化作为初始的数据。用户搜索的时候,也向量化处理并与上一步已经转换为向量的内容做相似度匹配查询。高于特定的比例,例如 0.8 就取原始的答案输出,否则提示找不到,不会自己编写胡扯的
|
16
lointo 285 天前 via Android
有适合代码转向量的向量模型吗
|
17
ren2881971 284 天前 5
适合国内脑瘫老板,他们总是想私有化部署美,其名曰保护他们企业那点没人关注的数据。
|
18
veotax OP |
19
retrocode 284 天前
@ren2881971 这一拳可以啊, 这会咋没人说保护隐私了
|
20
ren2881971 284 天前
@retrocode 国内无隐私。。
|
21
lointo 284 天前 3
@veotax 嗯 可能有一点点误解 不是对代码的切分 是能够把代码向量化的 向量模型 类似 m3e bge 这类 目前知道的都是收费的. 没有自己本地能够部署的. 这里有个相关的对比 https://huggingface.co/moka-ai/m3e-base#%E2%9A%96%EF%B8%8F-%E6%A8%A1%E5%9E%8B%E5%AF%B9%E6%AF%94
正在调研类似的系统 参考列表 可独立部署: fastgpt dify.ai chatollama langflow Flowise Langchain-Chatchat 在线的 coze chato |
22
beyondex 284 天前
代码向量化?需要做相似代码片段搜索吗?
|
23
Liftman 284 天前
这种实际上的效果。。并不理想。试过类似的。。。而且大部分人连半吊子都不是。很难真的实现效果理想
|
24
ohazyi 283 天前
有对比过不同的向量数据库 / 语言模型的效果/性能优劣吗? 比如你说的 m3 bge 什么的
|
25
veotax OP @lointo @ohazyi Casibase 提供了 Embedding Provider 抽象接口,支持各种类型大模型 API 和本地模型的向量化功能。目前实测效果最好的是 OpenAI 的 Embedding V2 以及 V3 模型: https://github.com/casibase/casibase/blob/master/embedding/provider.go
|
26
wangxiaoer 282 天前
这种方案有几个问题:
1 基于向量搜索的准确度如何,毕竟最后的答案是需要大模型( GPT )通过向量搜索结果进行二次加工(编造)的。 2 隐私性如何保障:向量搜索结果要作为输入发送给大模型,关注隐私的基本无法用了。 |
27
meinjoy 281 天前
国内有个 marvis 和你这个一样吧
|
28
QiShine 279 天前
和网易的 Qanything 比较像
|
29
ddddd0 279 天前
@Liftman 试试 gptbase.ai 是我用过的精度相对好的产品了
|
31
ffwei107 279 天前
邀请您使用人工智能问答机器人——AI 问答宝:
https://17281.invite.wendabao.net |
32
shiyuu 278 天前
兄弟,知识库要怎么制作啊?我部署了阿里的千问,直接上传一个公司规章制度没有修改过的 word ,根本识别不出来,直接复制文字成 txt 也不识别,更别说其他格式的东西了。
这知识库是不是要有固定的格式??? |
33
mio4kon 278 天前
demo 网站怎么上传 pdf 进行测试呢?
|
34
veotax OP @shiyuu 在数据仓库这个页面(比如: https://demo-admin.casibase.com/stores ),点击对应仓库的“刷新向量”这个按钮,Casibase 会对这个仓库对应的“存储提供商”里的所有文件进行向量索引操作,go 后端会有日志输出。还有其他具体问题可以在 Q 群里提问哈,回答会比较快些~
|
35
ideaa 275 天前
来试试文心一言+知识库的客服系统吧,可以完全自建
https://www.oamad.cn/ |
36
nunterr 273 天前
功能先不说,你们的主页,和聊天的性能可以优化一下😄,太慢了~~
|
37
chlinlearn 272 天前 via Android
有没有像 kimi 支持在线文章链接总结分析的模型推荐?
|
38
Devocy 272 天前
内部实现向量数据库这一点让我很感兴趣。这个资料希望对你有帮助 https://skyzh.github.io/write-you-a-vector-db
|
40
lstz 268 天前 via Android
我想把此项目集成进项目里,可以吗
|
41
lstz 268 天前 via Android
抱歉,想集成到我的开源系统
|
42
veotax OP @nunterr 演示站的这个性能问题是由于调用了 OpenAI 接口,API 调用到地球另一边有延迟。你自建,然后用国内模型就速度完全没问题了。主页则是 GitHub Pages ,这个看你的网好不好了
|
43
veotax OP @chlinlearn Casibase 支持上传 PDF 文件作为知识库,然后进行问答(包括总结)
|
45
romisanic 267 天前
点开项目才发现,之前已经 star 过了
那就手动给 OP 点个赞吧 |
46
shm7 266 天前
外面都是用大模型/GPT4 的方案,你整个不用大模型的,才能体现出差异化 ; D
|
47
sampeng 265 天前
其实我很像要一个 chatpdf 这样的产品。。。但找了一圈也没有体验类似的
|
48
dabaibai 265 天前
马克一下 以后看看
|
49
cd605426287 264 天前
@sampeng KIMI 这种可以读文章的不行?
|
50
sampeng 264 天前
@cd605426287 读文章没意义的。只能是玩具。。要像 chatpdf/chatdoc 一样。能自动跳转 pdf 的引用,根据引用来读
|
51
tingshijie520 263 天前
langchain 应该是 python 写的吧,这个基于 langchain 是指基于他的思想还是使用 go 语言版本呢?
|
52
evan9527 259 天前
0 代码基础,有没有那种傻瓜式的,我只需投喂各种文档( pdf ,excel ,图片等),可以帮我连接各个文档检索内容的 ai 工具?就像是 kimi 离线版。
kimi 目前我使用有一个问题就是,文档内容修改后就得重新开启会话上传新文档。 |
53
tingshijie520 258 天前
@evan9527 网易的 QAnything
|
54
sirz 257 天前
@ren2881971 更多的是合规性要求
|
55
wwhc 253 天前
真正保护公司/个人信息数据的只能是在本地部署的开源大模型如 LLAMA/Mistral ,这才可以脱离互联网使用,没有数据泄漏的状况。把数据送到外部 AI 服务,没有任何私隐可言
|
56
hitsmaxft 234 天前 via iPhone
@tommyshelbyV2 光靠向量相似度,效果不如传统搜索呢。。
|
57
chenjianyi 228 天前
用过 maxkb ,和这个相比怎样呢?
|
58
veotax OP @chenjianyi 这个企业级应用要强很多,功能很细
|
59
dislazy2023 228 天前
我前几天用同样的本地数据,就几 KB 使用 maxkb + 星火 3.5 做了一个简单的 ai 感觉速度奇慢,准确度还低,调教起来挺费劲的
|
60
veotax OP @dislazy2023 Casibase 可支持 100GB 以上的文档数据( docx 、pptx, pdf 等)作为知识库,采用先进的向量检索算法,对知识进行检索,性能强悍。可以部署试用下
|
61
elseswitch 227 天前
数据量大的情况下,准确度会不会很差?
|
62
whoosy 227 天前
有个问题想请教下,关于向量搜索这块,对于每个拆分出来的段落,段落标题描述的准确性和段落的 size 是否会直接影响到搜索结果?
|
63
hydyy 227 天前
正好要找类似的,我们用户都有自己的一套数据,能为每个用户提供只对自己的数据搜索吗?
|
64
veotax OP @elseswitch 不会,通过 Open AI Embedding API + 最佳向量相似度算法,保证高准确度
@whoosy Casibase 带有启发式的 Splitter 切分算法,能够智能分段。也可以自定义 Splitter 切分算法 @hydyy 可以,Casibase 本身支持多租户,每个组织里的每个用户,都可以有自己的知识库(文档集合) |
65
xiaochengdengya 224 天前
支持一下
|
66
kerb15 223 天前
有准确性的测评数据吗
|
67
wxyudl 223 天前
收藏
|
68
ZGame 221 天前
后台管理好像打不开
|
69
wsbqdyhm 219 天前
看着还不错
|
70
DaChengDawn 206 天前
借楼分享一个我和同事一起开发的 AIGC 能力生成婚礼演讲
选择角色、风格、长度后(也可补充输入个人故事),可一键生成演讲内容~ 体验地址: https://aiweddinggenerator.com 后续会持续优化和拓展功能 |
71
xinyana 205 天前 via Android
我感觉好像不错呢,回头试一下
|
72
nightkl 196 天前
收藏一下
|
73
xing7673 188 天前
@ren2881971 #20 是的,三星是中国的
|
74
murmur 171 天前
@ren2881971 研发经费得有地方花啊
|
75
ren2881971 168 天前
@murmur 哈哈我们公司那代码写的跟屎一样。 一行注释都没有 就别说文档了。 就这领导还要弄个 AI 编程助手呢 真的谢了。
|
76
popdo 166 天前
演示后台进不去,无限回退到登录页
|
77
Altairvelvet 163 天前
牛逼,感觉非常不错的产品!
|
78
Altairvelvet 163 天前
@popdo 是的,我也发现进不去后台。
|
79
bboring 143 天前
An error occurred during responding.
The target vector's length: [1536] should equal to knowledge vector's length: [3], target vector = [-0.021851055 -0.007065261 -0.028624363 -0.024381313 -0.023524918 0.02914339 -0.01248261 -0.002765443 -0.008200633 -0.005076737 0.029299099 -0.003261763 -0.015700579 -0.0025918933 0.012197144 -0.001033189 0.03861564 0.005809863 0.018970452 -0.013650421 -0.019800896 0.010043181 0.0051837866 0.008940248 -0.008129267 -0.005323275 0.0025935152 -0.012138754 0.0033542148 -0.015765458 0.0038213395 -0.016193656 -0.017841568 -0.01293027 0.004087341 -0.016310437 -0.0008628831 -0.009770691 0.02147476 -0.0084731225 0.013001637 -0.0065073064 0.0034937034 -0.0068316986 -0.027897725 0.013313053 -0.012696709 0.0004338745 -0.014935014 0.0359686 0.009225712 0.012852416 -0.014792281 -0.0005234878 -0.0061699385 -0.014740379 -0.007811363 0.006189402 0.007597264 -0.043805916 0.00305253 0.024134776 -0.0060077426 0.015090723 -0.0044766115 0.019995531 0.01533726 0.0051026884 0.008414732 0.017828591 0.02307077 0.019411625 0.0119960215 -0.011236943 0.01711493 -0.01663483 |
80
veotax OP |
81
unco020511 139 天前
@ddddd0 #29 试用了下,确实产品做的不错啊,完成度很高.如果能开放用自己的 apikey 和模型就更好了,目前检索和生成的能力似乎还有待加强,但产品流程和设计是没问题的
|
82
janda 123 天前
问下佬你们这向量数据库用的哪个、主要是文本处理吗?索引类型和参数用的什么,Embedding 和 rerank 可选吗?
|
83
willzzz 118 天前
后台登不进
|
84
wangxiaoer 98 天前 via iPhone
@veotax 请教下,pg 的向量数据库支持中文的分词和全文检索吗
|
85
veotax OP |
86
jackerbauer 91 天前
@veotax #60 怎么个先进法?
|
87
manhere 83 天前
milvus 随便搞搞就有了,RAG 赛道确实是烂大街了。。。
|
88
xiaoz 70 天前
使用 SQLite3 作为数据库,数据库文件要提前创建吗?用 docker 安装,并用 SQLite3 作为数据库,可有配置案列,自己挂载数据库目录无法启动。
|
89
follow 69 天前
和 fastgpt 比,有何特色?
|
90
sukidesuka 69 天前
我做过半年,纯余弦效果十分差,特别是搜索没有语义的 UUID 、故障码,几乎搜索不到。要配合多种方法搜索再整合回答,这方面我还申请了专利
|
91
zdw189803631 42 天前
我很好奇,为什么我每天都能刷到这个老帖子
|
92
fy 27 天前
@zdw189803631 根据名字来说的话 怕不是 casbin 同款推广策略,那个也经常刷到,几年了
|