背景描述:目前有 10 万份到 100 万份单独英语文本,需求是首先抽取每个文本的每个单词出来,二是搜索时能够找出所有包含该关键字的文本出来,并能够对应到行。
当前想法:的方案是 elasticsearch,分词的话找个 python 库处理一下,有点像个迷你的搜索引擎,但不确定是否需要那么重量级的工具。
请教:有什么简单又直接又省运维成本的方案?非工作项目,所以全部上云,能不要内存型数据库就不要,能上 serverless 就上 serverless,以降每个月成本压到最低。Java 独有的技术线上不了,Python 、Go 和 JavaScript ( Node )都可以。谢。
1
noqwerty 2020-06-11 03:55:11 +08:00 1
|
2
Philippa OP @noqwerty 十分感谢!里面介绍使用内存和 cpu 都很少,可运行在 5 刀的服务器上,另还有多种语言的 client 包,非常合适,明天就试试看:)
|
3
love 2020-06-11 07:27:56 +08:00 via Android
mysql?
|
4
rogwan 2020-06-11 08:49:29 +08:00 via iPhone
英文不需要分词库,默认一般就可以吧?
|
5
update 2020-06-11 09:03:04 +08:00
manticoresearch(基于 sphinx)
sphinx |