没有经验,主要是通过网上各种视频,看看书入门,了解了大致的开发流程和架构。
现阶段,主要是离线计算,需要把数仓以及数据分析平台搭起来,技术选型 hive spark impala kylin oozie,数据可视化是 superset
架子什么都搭起来了,就是,有很多问题? 1.有没有什么最佳实践?
2.数仓的表怎么设计? 之前我是这么做的,直接搞 大宽表,一个表 200-300+个字段,几乎包含的所有维度的数据了,现在发现,这个大表看着就头疼,维护起来也很麻烦。
3.如何把 MySQL/Oracle 的数据同步过来?每天同步一次? 现在用的工具是 oozie + sqoop,感觉 用起来 有点小麻烦
有没有小伙伴又类似的经验?能不能提供下咨询服务?有偿!!!
========================
另外 : 我们需要招一个 有经验的 数据开发工程师, 广州,简单面试,直接进,如果有兴趣话,可以联系我 wx:emh4amR3aHd4
小公司,200+人,英国 /新加坡 /全国各地城市都有分公司,业务范围:全球都能找到我们的身影,新 3 板上市,年营收 10+亿
我们团队成员:1 个数据分析师 + 我(数据开发)+ ?(招聘 /数据开发工程师)
1
Smilencer 2019-12-05 22:27:10 +08:00 via iPhone
我见过最实在的招聘帖
|
2
zhxjdwh OP 有偿咨询!!!
|
3
Heebe 2019-12-06 00:36:25 +08:00 via iPhone
数据仓库的我是没见过什么特别好的实践,因为业务性太强了,一个小小的区别就可以改变整个架构。我之前看过一个 PDF,应该贯穿了整个业务,你可以搜索下 Hadoop 数据仓库(大概这样的名字)。
分库分表是在所难免的,这个要看业务来。总的来说就是关联性强的尽量在一起,垂直分区水平分区都要做,毕竟数据量摆在那。同步时间,如果数据仓库不要求太高的及时性,尽量减少同步次数,毕竟每一次写入扩展都是一次炼狱。 另外 我觉得,一个专业的 DBA 会更能帮到你,至少在维护数据库的事情上可以省事,其他人可以专门做业务模块。 |
4
hanangellove 2019-12-06 00:36:38 +08:00
看来楼主是挺技术 boy
|
5
kajweb 2019-12-06 03:03:37 +08:00
没有经验能混进去实习吗
|
6
cqcn1991 2019-12-06 07:45:10 +08:00
|
8
JunoNin 2019-12-06 08:36:02 +08:00 via Android
一起摸鱼
|
9
d5 2019-12-06 08:39:26 +08:00
招聘帖典范,hhh
|
10
OctopusGO 2019-12-06 09:01:28 +08:00 via Android
典范,可惜不在广州
|
11
SbloodyS 2019-12-06 09:07:53 +08:00
贵司加班多么?正好想换个加班少些的公司!
|
12
drydiy 2019-12-06 09:07:59 +08:00 1
不是面试造火箭,工作拧螺丝。这招聘帖看着就舒服。
|
13
LightLolo 2019-12-06 09:22:40 +08:00
招聘典范,精简务实。
|
14
392039757 2019-12-06 09:30:18 +08:00
1.没有银弹,很多坑都是埋在业务里面的,别人的最佳实践也不一定适合你
2.大宽表维护起来会爆炸的,因为业务状态总是在不停的变更,有时候业务表的表结构也是在不停变更,最好是事实表+维度表的方式进行,先要确定主题再确定数据口径,以事实表为主维度表为辅 3.数据同步还是合适的来,我们就是 oozie + sqoop 每天跑批+logstash 实时同步 |
15
Marst 2019-12-06 09:31:45 +08:00
很直接务实的招聘了,可惜我不做这方面的工作
|
16
9420JackT 2019-12-06 09:44:27 +08:00
招聘典范,精简务实。
|
17
user919lx 2019-12-06 10:27:25 +08:00
我就是做数据开发这块的,主导过数仓项目,数据表设计和 ETL 开发都是我一个人做的, 现在在负责一个数据项目的全套数据开发,对数据仓库这一套很熟。
我的博客 longfei.leanote.com ,很久不更新了,只是因为写文章很吃力,有很多零碎的东西不好写上去。 博客里“关于我”的部分有邮箱可以交换联系方式(不在这里写是为了防止垃圾邮件)。 暂时不打算换工作,不过很乐意交流一下。 |
18
xuecan 2019-12-06 17:51:45 +08:00
我蛮好奇是哪家公司的
|
20
zjxzhqq 2019-12-07 00:34:12 +08:00 via Android
你们主要是为了服务什么数据业务?
|
21
k1263 2023-10-29 23:05:58 +08:00
关于这方面的讨论挺少,最近也在做:
1. ETL 全量转换 2. sqoop|Datax 全量不转换 3. Debezium+Kafka 增量不转换 4. Flink 增量转换 |