求教， 1000 万个总计 30GB 的文件，单机存储，渴望随机读取速度快，怎么存比较好？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2883 天前的主题，其中的信息可能已经有所发展或是发生改变。

用什么数据库或系统或？

请教

求教

请教

读取

单机

27 条回复 • 2018-03-23 10:26:56 +08:00

dqh3000

2018 年 3 月 22 日

可以认为是 1000 万个 json，但是并不需要查询内容

可以接受 KV 感觉的读取，每个文件可以有 uuid

binux

2018 年 3 月 22 日

加 30G 内存

dqh3000

2018 年 3 月 22 日

@binux 随机读写速度相对不会因为数据太多，性能下降太高就行

msg7086

2018 年 3 月 22 日

NVMe SSD + Reiser4 ？

golmic

2018 年 3 月 22 日 via Android

不懂帮顶。希望知道答案

murmur

2018 年 3 月 22 日

30g 随便买个 intel 的高速 ssd 就可以了啊

Aug

2018 年 3 月 22 日 via Android

分布式？

paranoiagu

2018 年 3 月 22 日 via Android

这么多文件，参考 ccache 的存储方式。

XSugar

2018 年 3 月 22 日 via iPhone

文件按文件名划分区块？索引会不会好些

vwhenx

2018 年 3 月 22 日

搞个 64G 内存，存内存里面

mhycy

2018 年 3 月 22 日

入库，瓶颈在文件系统

shakoon

2018 年 3 月 22 日

上世纪末本世纪初这样的数据库存储方式在大型机里可是主流的呢，好多银行在用，VSAM 了解一下 →_→

Mutoo

2018 年 3 月 22 日

taobao 当初为了实现高性能小文件的读取，自己搞了一套 tfs，后来还做成分布式的。你可以了解一下
https://github.com/alibaba/tfs

tigiyj

2018 年 3 月 22 日

最近正好我这类问题同问,我是 4000 万文件,将近 500g,

tigiyj

2018 年 3 月 22 日

最近正好遇到这类问题同问,我是 4000 万文件,将近 500g,

jasontse

2018 年 3 月 22 日 via iPad

加内存 buffer 或者 Optane

dqh3000

2018 年 3 月 22 日

如果把所有文件都对齐到一个统一大小，算是拿空间换时间，不知道会不会好一点？

换文件系统这件事儿实在是，并不容易……

yqylovy

2018 年 3 月 22 日

可以考虑 rocksdb

sunny352787

2018 年 3 月 22 日

我觉得还是扔库里先试试，常用的 redis、mongoDB，甚至 mysql 的读取性能其实应付一般的需求都可以，扔进去测试一下看看先，这么问没有统一答案的，而且随机读取可能没你想象的那么慢

dqh3000

2018 年 3 月 22 日

@sunny352787

现在在 Postgresql 里

taobibi

2018 年 3 月 22 日

SSD 组 RAID10，这样读取没问题，但是响应时间不太好说。

natforum

2018 年 3 月 22 日

借楼问下 1300 多个文件 100g，怎么搞，原来想过 hadoop+hdfs，不知道可行性

macfee

2018 年 3 月 22 日

tfs

zts1993

2018 年 3 月 22 日

kv 推荐 rocksdb - 具体到实现可以看看 pika

msg7086

2018 年 3 月 23 日

@natforum 简单点可以 GlusterFS。

iyg429

2018 年 3 月 23 日 via iPhone

@binux 拷贝速度快和什么关系最大？硬盘和内存？

leekafai

2018 年 3 月 23 日

加内存，全部放到内存里面，要读就从内存去读，这样是最快的。