请教如何高效实现从大量文本里随机读一行文字这样的任务? 希望充分利用内存

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3798 天前的主题，其中的信息可能已经有所发展或是发生改变。

想做一个这么一个东西:
有一堆纯文本文件,小说之类的.
随机的挑一个小说,随机的挑一段,随机的挑一句.
呈现这一句.
如果读者感兴趣,再打开这一段.更感兴趣,再看全文.
挑战在于:
文本库会随时增加.
为了方便,增加文本库的时候就是上传文本文件.
假设文本库非常大,可以上 T.
如果每次都从磁盘读取文件,没有充分利用内存.
那么希望有个自动的缓存策略.不知道有什么框架或者工具可以用?

文本

随机

文件

文本库

13 条回复 • 2015-09-22 16:40:35 +08:00

Andiry

2015 年 9 月 21 日

Redis

zado

2015 年 9 月 21 日

反正都是随机的，你可以预先随机读取一大批集中存放一个文件里，以后每次都是读取这个文件。

mfhh

2015 年 9 月 21 日

@Andiry 谢谢.我也刚刚想到. 以前有 redis 只存储小的键值对. 有点思维定势了. redis 好像有个 diskstore?

mfhh

2015 年 9 月 21 日

@Andiry redis 对 value 的大小有限制么?

maddemon

2015 年 9 月 21 日

可以这样吗？
缓存所有小说的文本的行数，需要展现哪一行就读取哪一行。
因为这个需求随机性太大，不可能缓存所有的小说，某一行被读取过，再次展现的时候如果还会展现这段话（维持一定时间）可以还存下来这行，否则每次随机的话，这一行就应该被废弃。

如果能够预先知道需要展现哪部小说，可以预先缓存这部小说。

LeonT

2015 年 9 月 21 日

性能主要是消耗在寻找文件上面，所以，将文件以及文件大小的列表存放在内存里面，需要的时候随机选择一个文件（根据大小加权随机，这样的话大的文件选择的概率会高，因为行数多），然后直接去硬盘随机读取一块数据（用 seek 调用，读取 4K ，一般就是块大小），把里面的完整的一行取出来就行了吧。

如果磁盘读取的时候某个块读取的多，然后内存够大，操作系统会自动做缓存的。

pichina

2015 年 9 月 21 日

利用倒排索引，建立全文索引。你的任务跟搜索引擎一样一样的。

pichina

2015 年 9 月 21 日

对内存利用可以有查询缓存，这都是搜索引擎干过的活儿。

CYKun

2015 年 9 月 21 日

我觉得你需要 MongoDB

mengzhuo

2015 年 9 月 21 日

很简单，连数据库都不需要啊！！！

直接按上传的文件 hash 出一个值，保存一个索引文件 map[文件 hash]行数在磁盘上

这时应该长这样
------index
|---00/....
|---01/....

(火狐就是这么实现 cache 的)

按随机数出一个文件，再随机出一行
有概率出一段

然后读取并返回

soratadori

2015 年 9 月 22 日

你可以做一个伪随机，然后预先缓存这部分.............

pichina

2015 年 9 月 22 日

@mengzhuo 这种做法就是倒排索引。参考 lucene

mfhh

2015 年 9 月 22 日

谢谢大家. 先做了个原型
http://one.treenote.net/

其实随机的要求没有很高. 所以差不多的办法都可以. 考虑的重点是作为 web 应用,不希望每次请求都要读硬盘. 我初步考虑的方案是做 2 重随机. 一个慢随机,是每累积多少次访问就去磁盘随机 load 一些大内容块到内存中. 一个快随机,每次请求都从内存中随机的取出小内容块.