最近做一个小说站,准备用 ES 当数据库。一个小说有上百个章节。目前获取单个章节内容的策略是先把小说获取到,然后取特定章节的内容。考虑到一个小说的内存占用有点大,有没有更好点的搜索方式。或者小说章节的存储方式。
谢谢
1
ericgui 2019-02-17 03:51:47 +08:00
先用 mysql 吧
|
4
Wisho 2019-02-17 04:32:27 +08:00
一部小说存一个 index,一章存成一个 document,document 的 mapping 里搞个字段存纯文本的章节内容,然后设好分词
|
5
theks 2019-02-17 11:32:45 +08:00 via Android 1
感觉没有必要。小说站主要是靠百度之类外部搜索引擎来搜索内容顺便引流吧,所以做好外部搜索引擎的收录就行了,它会给你的被收录的章节内容建全文索引。而站内的搜索往往是用小说名、作者名、主角名字等关键字做精确匹配,关系型数据库完全适用。
另外 sqlserver、mysql 等关系型数据库也可以建全文索引,用关键字作模糊搜索也是可以的,虽然不推荐这么做。 es 是基于 lucene 的,本质上做的是文档之间的相似度匹配,就是说会把用户输入的内容也当作一篇文档,也会对它分词,而用户只输入一个关键词是其中的一种最简单的情况。设想一下场景,我完全不记得小说名、作者、主角名,只记得关键情节“攻打明教光明顶”,那我第一反应是去百度,而不是在你小说站内搜索,因为小说站收录的小说是有限的,可能没有我要找的小说,除非是热门小说,而热门小说又不记得名字、作者的概率就很低了。 再说用 es 做数据库倒是可以,不过不太合适,它在关联、统计查询这些方面挺弱的,还是用传统关系型数据库存数据,es 只做搜索比较好。顺便说一下 es 挺吃服务器内存的。 |
6
lqw3030 2019-02-17 12:17:13 +08:00 via iPhone
你用多大机子跑,我试过 2g 机子 docker run 镜像跑不起来,后来改用 solr,跑三四个月状态良好
|