有一批数据要处理,数据源乱七八糟,但数据量不大,一般一天递增 2 万,哪位朋友能给推荐个 ETL 和 BI 可视化的??
1
sunorg OP .补充下信息:
目前数据源主要是 excel ,mongodb ,json 文本,普通 txt. 主要使用需要是 python 。 |
2
haimianbihdata 2023-12-11 00:28:48 +08:00 via Android 1
有预算就帆软的,没有就开源 superset 之类的 bi 。etl 就海豚调度➕Python 处理文本入库。大差不差
|
3
KKLeon 2023-12-11 00:57:24 +08:00 via Android
powerbi 和 tableau ? tableau 可视化做的不错,原来体验过,不过我用的很基础
|
4
ferock 2023-12-11 03:44:49 +08:00 via iPhone
mark ,期待后续解答
|
5
hysys32 2023-12-11 08:02:36 +08:00 via iPhone
powerbi 宇宙最强
|
6
sunorg OP @haimianbihdata 感谢,我学习一下这个去
|
7
Babbitt 2023-12-11 08:16:33 +08:00 via iPhone
有类似需求,关注下
|
8
fridaycatye 2023-12-11 08:36:07 +08:00 via Android
mark ,我自己用过 datax 和 kettle
|
9
sujin190 2023-12-11 08:50:55 +08:00 via Android 1
https://github.com/snower/syncany-sql
那来推荐下这个项目呗,写 SQL 可以同时查询你需要的这些数据源还可以相互 join ,python 搞的,出发点也就是你现在遇到的这种需求,把统计结果同步到 mysql 之类的,图表用 superset 就很好用了 |
11
howfree 2023-12-11 09:13:58 +08:00
有个叫 datart 的,不知道能不能满足你的需求
|
12
sujin190 2023-12-11 09:29:21 +08:00 1
@sunorg #10 顺便补充一点点,这个写的 SQL 主要方向还是数据导出和数据同步,所以 insert into 并不和数据库的 insert into 一样,其 select 的第一个字段表示主键唯一值,insert into 的时候可以指定选项按这个字段值存在则更新否则插入以保证可重入,毕竟定时脚本统计同步数据不能保证重入简直坑死人,默认则是追加,如果是按天统计结果的也推荐用日期加统计类型来构建一个唯一值更容易保证不出错
|
13
Chalice 2023-12-11 10:16:59 +08:00 1
最近测了很多 bi ,大部分对 MongoDB 的支持都很烂(比如 metabase 不支持 MongoDB 的 array ), 有的甚至完全不支持,最好先用 MongoDB Connector for BI 转换下。
|
15
sunorg OP |