我想请问一下大家 ElasticSearch 的问题 - V2EX

Home Sign Up Sign In

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

Sign Up Now

For Existing Member Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2615 days ago, the information mentioned may be changed or developed.

最近我在做一个需求,这个需求需要用到千万级别的数据进行聚合统计做报表,这个报表的结果和前台的查询条件有关

所以我突然想起了 ES,不知道有没有老哥做过千万级别的数据进行复杂的数据聚合,这个聚合 ES 能吃的消吗?性能怎么样?能实时进行计算吗?

25 replies • 2019-03-12 16:13:21 +08:00

1

notreami

Mar 12, 2019

大数据聚合跟 ES 有啥关系？

2

cnnblike

Mar 12, 2019

千万级别不算啥。
我们在用的 ES 集群，部署在 AWS 上，因为是内部用的所以有折扣，
Searchable documents 数量这会在 500,000,000。过几天可能会把 data retention 放宽到 15 倍，自然数据量也会增加到 15 倍。
我觉得你与其考虑什么这个能不能吃得消。还不如考虑价格能不能吃得消。

3

cnnblike

Mar 12, 2019

我们组 10 台 AWS 的 EC2 在支撑这玩意儿，每台 m4.large 价格是 0.1 刀每个小时，也就是说一小时一刀，然后你自己算算吃不吃得消吧。

4

1daydayde

Mar 12, 2019

这对 es 来说简直是不值一提，毛毛雨啦

5

penisulaS

Mar 12, 2019

多弄几个节点,啥都不是事

6

hotwater

Mar 12, 2019

看机器

7

luozhiyun

OP

Mar 12, 2019 via iPhone

@cnnblike 你们十台机器支撑的数据量多大呀？

8

luozhiyun

OP

Mar 12, 2019 via iPhone

@cnnblike 我觉得我们的数据量最多也就两千万，只不过要用这个数据进行实时计算，怕性能太差，等个几分钟才出结果，那就意义不大了

9

naga1003

Mar 12, 2019

千万级别基本单机就搞定了

10

limbo0

Mar 12, 2019 via Android

千万级别太小了…

11

yghack

Mar 12, 2019

千万级？单机单实例足够了。

12

icegreen

Mar 12, 2019

想知道楼上各位支持到了多复杂程度的聚合分析。。。

13

zcsz

Mar 12, 2019

千万级的应该还动用不到的 ES 吧，部门内部这样数量级的需求拿个有点老的 GreenPlum 跑，聚合起来效果非常好

14

luozhiyun

OP

Mar 12, 2019 via iPhone

@naga1003
@limbo0
我这里不光是查询出来呀，如果只是查询的话当然没问题，我要做的这个东西是千万级别的聚合，而且是面向用户的，每个用户的聚合条件不一样都需要重新去根据条件聚合，并发量可能有 100 多的样子。也就是说有 100 个用户同时在用 es 做千万级别的复杂聚合

15

notreami

Mar 12, 2019

@luozhiyun 所以，我才问，大数据聚合，跟 ES 有关系嘛？直接上 hive 啊

16

airfling

Mar 12, 2019

吃的消，千万级的数据文档没啥问题的，我测试的每天 6kw 条记录，聚合查询三天内都会很快返回

17

bringyou

Mar 12, 2019

扛不扛得住还是看机器配置吧，我司数十亿的日志分析都是跑在 es 上的，只要配置够，别太抠就行。现在聚合查询、数据分析用 ELK 全家桶的很多，除了手写 es 查询，还可以看看 kibana
https://www.elastic.co/products/kibana

18

luozhiyun

OP

Mar 12, 2019

@notreami 我这里有用 hive, hive 太慢了, 一个脚本跑下来基本半小时过去了

19

luozhiyun

OP

Mar 12, 2019

@bringyou 日志系统我也有做 , 用的就是 ELK ,但是用来做聚合分析没有试过这种在大数据量下还有并发要求的实时计算的情况

20

notreami

Mar 12, 2019

@luozhiyun 这样问题就很清晰了，你需要的是实时大数据聚合计算。对应的不就是 stream、FlinkSQL 之类。。。

21

Wisho

Mar 12, 2019

讲道理，ES 的 aggregation 不是很快，也不是它的强项。以“实时”作为标准的话，当 aggregation 条件很复杂的时候 ES 还是挺慢的。

22

luozhiyun

OP

Mar 12, 2019

@notreami 你说的这两个没有研究过呀 ....

23

fireapp

Mar 12, 2019 via iPhone

1 亿条，每条 1k，是 10G，单机 grep 加 awk 一两分钟的事，你们为啥要搞的那么复杂? 搞不懂

24

liyer

Mar 12, 2019

es 搭配 kibana
完美

25

90safe

Mar 12, 2019

千万级别小玩意啦，我玩 ES 都是单机上亿查

About · Help · Advertise · Blog · API · FAQ · Solana · 954 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 66ms · UTC 19:55 · PVG 03:55 · LAX 12:55 · JFK 15:55
♥ Do have faith in what you're doing.