V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Renco
V2EX  ›  程序员

公司想搭建一个类似数据中心的东西,有什么实现思路和方式,还有工具推荐么

  •  1
     
  •   Renco · 345 天前 · 4526 次点击
    这是一个创建于 345 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大致需求是 所有系统的数据可以抽出来放入数据中心里,所有系统可以通过固定规范访问数据中心获取对应数据。进入到数据中心的数据需要经过一定的校验,否则会生成 csv 文件,人工修改后再选择传入数据中心。数据中心本身需要有一定的简单的业务处理能力,能对外提供查询服务(全文检索),并且可以对已有的数据进行分析的功能。

    我自己的想法是可以先通过 es 实现。但是架构师后来给我提了什么数据仓库或者类似数据湖的概念,我查询了下又觉得 es 不足以能够实现或者替代 数据仓库和数据湖的思想。这种需求还有什么其他的解决思路么。

    ps:个人感觉我一年的 java 开发经验上手做这种东西有点蛋疼了:( 不过创业公司,架构师基本上是一个大功能模块放出来,给我们一个思路让我们自己去尝试实现,只能加把劲争取做了。

    路过的大佬给点思路!跪谢!

    28 条回复    2020-11-10 20:54:39 +08:00
    tomczhen
        1
    tomczhen   345 天前 via Android
    性能指标,功能指标,预算指标啥没有,就用云架构吧。
    tabris17
        2
    tabris17   345 天前
    碰到过好几次 es 掉数据了。不是很可靠的数据存储后端。
    tabris17
        3
    tabris17   345 天前
    另外 es 基本上没什么业务处理能力。不如考虑下 pgsql 或 hive 吧
    Renco
        4
    Renco   345 天前
    @tomczhen 现在暂且是简单选型,和调研,具体指标方面都还没列
    snappyone
        5
    snappyone   345 天前
    es 做搜索,存储用 hadoop 这种,计算用 spark 。一年经验确实难为你了
    huifer
        6
    huifer   345 天前
    基础技术选型: Spark/Hive/Flink 这类提供查询方式的. 并不一定是 ES , es 提供全文搜索, 更适合于文档. 非结构化数据.
    确定技术选型后需要制作 ETL 即 各类数据源数据收集处理, 转换成数据中心(数据仓库)的数据对象(数据结构)
    数据转移完成后进行数据分类, 此时接入 ES 或者 MONGODB 我认为相对合适. 此时接入 ES 主要是进行归档数据存储,
    后续对外暴露服务可以通过 Spark sql + es 搜索 等技术进行暴露服务, 编码语言等不做限制,
    ssssshi
        7
    ssssshi   345 天前   ❤️ 1
    直接搜数据中台技术架构 ,照着大厂的架构挑对自己公司有用的来,选型的时候多结合自己公司的业务和各产品特点,比如 CK 查询快,redis 数据新,计算用 hive spark flink 之类的,存储 hdfs,抽取 flume 等等...
    一开始的时候架构分层要清晰,不要各种生命周期的数据混在一起
    huifer
        8
    huifer   345 天前
    就针对数据处理而言可能需要采用 MQ 或者 主从数据库等形式来尽可能减少对线上环境的影响....考虑不是很全面. 请多指教
    Renco
        9
    Renco   345 天前
    感谢!
    Renco
        10
    Renco   345 天前
    @huifer
    @ssssshi 感谢回复建议!
    silentt
        11
    silentt   345 天前
    给你一条生产上的建议,选型一定要选 SQL 语法支持完备的数据库做数仓。你会发现绝大部分大数据的工作都是写 SQL 。
    Renco
        12
    Renco   345 天前
    @silentt 好谢谢!
    angryfish
        13
    angryfish   345 天前 via iPhone
    要是我说上 oracle,大家会不会打我
    rapperx2
        14
    rapperx2   345 天前
    ClickHouse
    bxb100
        15
    bxb100   345 天前
    @angryfish #13 确实是好的选择, 但是太贵了
    evil0harry
        16
    evil0harry   345 天前
    clickhouse + kafka
    levelworm
        17
    levelworm   345 天前 via Android
    我们用 vertica 和 kafla,但是不知道你具体情况不好推荐。。。
    zorui
        18
    zorui   345 天前
    阿里云 的话 dla 可以满足
    jadec0der
        19
    jadec0der   345 天前
    ES 和数据湖是两个场景,数据湖里的数据做分析,是不在数据库端做条件查询的。比如一个 data scientist 用 Spark 分析订单数据,他会取全量的订单数据放到 Spark 里,然后写 Spark SQL 在内存里对数据进行查询。既然在数据库端不需要做查询,那就不需要对存储的数据做索引,数据存 csv 格式放对象存储里就行了。所以关键看数据怎么用,你得先把这个搞清楚。
    zyuu2
        20
    zyuu2   345 天前   ❤️ 1
    postgresql+clickhouse 。clickhouse 存量大的、日志型数据,postgresql 存量小的、聚合后的数据。
    teddy2725
        21
    teddy2725   344 天前
    这就是典型的数据仓库场景嘛,看来还有些元数据管理和数据治理的需求。让你一个一年经验的 java 搞这不是为难你嘛。架构师不出方案的嘛。
    a719114136
        22
    a719114136   344 天前
    能用现成的就用现成的吧,阿里云有个 MaxCompute 可以试下。
    stephenxiaxy
        23
    stephenxiaxy   344 天前
    clickhouse
    yangzh
        24
    yangzh   344 天前 via iPhone
    如果是分析数据的话,楼主可以搜索一下以下关键词:spark/clickhouse/postgresql,此外数据入库可以搜索以下关键词 flink/kafka 等。分析场景和 ES 还不太一样。

    此外有条件的话可以考虑上云,例如楼上说的某云的 maxcompute (利益无关,几大公有云应该都有解决方案),否则运维会耗费精力。
    NCE
        25
    NCE   344 天前
    你们公司真有钱,可以让架构师这么嚯嚯。
    springz
        26
    springz   344 天前
    看需求还是推荐 Greenplum,所谓的数据分析,大数据工程师,其实都是 SQL 工程师。
    lrvy
        27
    lrvy   344 天前
    logstash 采集 --> kafka --> ETL --> ClickHouse/Hive, 短期日志放 ch,冷数据丢 hive
    mason961125
        28
    mason961125   344 天前
    好家伙,点进来之前以为要建 DC
    关于   ·   帮助文档   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4135 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 06:08 · PVG 14:08 · LAX 23:08 · JFK 02:08
    ♥ Do have faith in what you're doing.