V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
JellyDong
V2EX  ›  问与答

大数据经验咨询

  •  
  •   JellyDong · 2021-01-25 12:10:22 +08:00 · 1555 次点击
    这是一个创建于 1159 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景

    公司明年要做大数据相关的项目,目前没有相关工作经验人员,包括领导。

    我们大概有几百台设备,每台设备每秒传输一次数据,大概有 1000 个字段。

    我们现在是想分析这些数据,从而获得一些可以用来决策参考的信息。

    问题

    基于上述情况,有没有什么好的框架可以借鉴使用?或者说相关课程等有推荐吗?

    感谢各位 V 友~

    21 条回复    2021-01-26 10:02:03 +08:00
    mwcodenoname
        1
    mwcodenoname  
       2021-01-25 12:13:56 +08:00
    每次传输数据量有多大?数据存储周期有多长?分析数据需要的查询返回时间是多少?这些都要确定一下。
    比较常用的方案就是 hadoop+hive+spark 这种。
    czfy
        2
    czfy  
       2021-01-25 12:15:28 +08:00
    这..真的有可能自己做成吗
    感觉这种招人也没办法招,因为没有人懂,所以很难判断招来的人是否靠谱
    相对来说最可能的就是找供应商了
    JellyDong
        3
    JellyDong  
    OP
       2021-01-25 12:26:50 +08:00
    @mwcodenoname
    传输每次大概 1M 左右吧,周期的话我们现在是放到消息队列,然后去消费的。
    JellyDong
        4
    JellyDong  
    OP
       2021-01-25 12:27:52 +08:00
    @czfy 应该是不会找供应商的...可以找培训,后续我们自己做...
    levelworm
        5
    levelworm  
       2021-01-25 12:39:17 +08:00
    你这个项目不小啊。。。假设五百台,一秒 1MB,一秒就是 0.5GB 。一分钟 30GB,一小时 1.8TB ,一天就是 43TB 。好想做这种项目啊。。。这个规模的数据肯定 Hadoop 跑不了了,其他的我也不懂。。。
    czfy
        6
    czfy  
       2021-01-25 12:39:20 +08:00   ❤️ 1
    @JellyDong 如果你觉得这是培训可以解决的问题..只能祝你好运
    levelworm
        7
    levelworm  
       2021-01-25 12:39:48 +08:00
    @czfy 感觉这种项目经验很宝贵,的确很有意思。。。
    czfy
        8
    czfy  
       2021-01-25 12:44:55 +08:00
    @levelworm 我是在专门做大数据方面解决方案的公司,不是研发侧,但从我日常和客户以及内部沟通的情况来看,从 0 开始做这件事情,基本很难
    levelworm
        9
    levelworm  
       2021-01-25 12:53:00 +08:00
    @czfy 我觉得也是,完全没经验的话,靠培训我觉得不是很乐观,即使是有开发经验(但是没有大数据开发经验的),因为大数据环境下很多坑都是新的,而且大概率每个坑很贵,无论是上云还是本地。我们公司是做手游的,数据量也不小,得有一整个团队来支撑。
    mwcodenoname
        10
    mwcodenoname  
       2021-01-25 13:03:32 +08:00   ❤️ 1
    @levelworm 这个规模存 hadoop,然后跑 hive 做离线分析应该是没啥问题的,不过集群规模要比较大了,没有团队和有经验的确实维护不动
    levelworm
        11
    levelworm  
       2021-01-25 13:11:30 +08:00
    @mwcodenoname 如果要在线分析的话估计得 Spark 之类的?其实真的好想从头做这么一个项目。。。
    JellyDong
        12
    JellyDong  
    OP
       2021-01-25 13:13:01 +08:00
    @levelworm
    @czfy
    @mwcodenoname
    现在这个项目类似于怎么说呢,科研?对于客户的话也是合作伙伴,是打算一起从头搞的。也可能会考虑找解决方案公司搭建好环境框架,然后后续我们自己维护
    mwcodenoname
        13
    mwcodenoname  
       2021-01-25 13:46:57 +08:00
    @levelworm 传统方案一般要做实时分析就是 spark 、flink 这种计算和 hbase 组合吧,不过最近 clickhouse 也很火,这个我就不熟悉了,这种项目光机器成本就不是一般能承受的了的
    IceMimosa
        14
    IceMimosa  
       2021-01-25 13:47:19 +08:00   ❤️ 1
    1. 数据接收模块:多节点,可以自己写个 web 程序,简单处理下数据和规范格式,然后将数据以日志的方式落地。
    2. 日志收集模块:简单点可以用 flume 收集日志,然后发到 kafka
    3. kafka 消费模块:用 sparkstreaming,flink 之类的处理框架,将数据落到 hive 中( hdfs )
    4. 离线处理:然后起离线任务去处理,可以用 spark,hive 之类的。后面就是数仓干的一些活,每天定时任务可以用 airflow 之类的进行调度。
    5. 数据展示模块:将每天调度出来的统计数据,通过 spark 或者 sqoop 之类的导出的关系型数据库,或者干脆直接上 olap 框架。最后对接一些 bi 系统,比如 metabase,superset 等。

    总之里面技术比较杂乱,还得考虑每个技术版本的兼容性问题。整个环境搭建起来也挺费事的,当然也有整体的解决方案比如 cdh,hdp 之类的。

    相关课程的话,B 站应该有培训的视频,涉及面挺广的,不过学习周期就特别长了。。最好还是有个经验的人带着搞,不然到处都是坑😂
    ward56
        15
    ward56  
       2021-01-25 14:11:37 +08:00   ❤️ 1
    有幸参与过联通的 Hadoop 大数据,主要存储 GB 以上的数据包,不到半年几十 PB 。
    hadoop 适合存储《大》数据,一次写入多次读取,你的数据真的很大吗?
    从你目前提供的一点信息来看,你的案例比较适合 ES 框架,至于组件用什么,你得再根据自己具体业务选型。
    JellyDong
        16
    JellyDong  
    OP
       2021-01-25 14:19:10 +08:00
    @IceMimosa 是的 现在是想找那么个人带带,先入门
    min
        17
    min  
       2021-01-25 14:43:46 +08:00
    你这数据量不小了,先要把打算怎么分析这些数据搞得清清楚楚,根据分析使用数据的场景再出架构
    masterclock
        18
    masterclock  
       2021-01-25 14:59:05 +08:00
    主业就是这方面的东西,说实话公司从 0 做起难度太大,意义也不大,除非是要做这个行业了。
    1. 搞定这几百台各种各样设备的数据采集:各种 PLC 、Modbus 、OPC-UA 、哑设备?
    2. 考虑网络连接等:以太网、无线、EtherCat 、Ethernet/IP ?
    2. 打通企业现有的信息化系统、MES 、ERP ?
    2. 理解数据,建立模型:谁来建模、谁来分析?
    2. 考虑系统给谁用的,结果是给谁看的:老板、主管、技术人员 ?
    JellyDong
        19
    JellyDong  
    OP
       2021-01-25 16:04:25 +08:00
    @masterclock
    可能后续会单独有一批人搞这个的,公司性质本来是产不多算科研性质吧,出了客户外还是有经费的...
    不需要打通企业其他的信息化系统,后面的 确实是问题....
    Chenamy2017
        20
    Chenamy2017  
       2021-01-26 09:33:36 +08:00
    我们项目两人,然后领导经常嚷着要大数据,看到楼上涉及面很广呀,我也是够了。
    JellyDong
        21
    JellyDong  
    OP
       2021-01-26 10:02:03 +08:00
    @Chenamy2017
    hah...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2746 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 12:39 · PVG 20:39 · LAX 05:39 · JFK 08:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.