V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  yingqi1  ›  全部回复第 8 页 / 共 8 页
回复总数  143
1  2  3  4  5  6  7  8  
350 天前
回复了 Chayebao 创建的主题 程序员 请教一下大数据 ETL 工具该如何选择。
如果你们的团队规模较大,技术水平也不错,可以考虑使用 fink 。

但是如果只有几个人,不建议采用如此复杂的技术栈(例如 Hadoop\fink ),因为这可能需要长时间等待才能看到成果。(举个例子,开源 fink cdc 如何整库同步,你需要多长时间解决)。

小规模改动:结合 Airflow 和 dbt 。Airflow 可以处理调度和数据传输(可以利用现成的插件),而 dbt 则用于统一的数据转换( Transform )开发。dbt 是未来的趋势,但需要做好持续集成和持续部署( CI/CD ),可以参考楼上 GitLab 的开源方案(我们之前也参考 gitlab 的)。

大规模改动:替换数据处理和数据仓库部分,但避免使用 Hadoop 生态系统,因为它过于复杂且难以快速看到成效。建议使用 ClickHouse 或其他 OLAP 类型数据库。

不要使用 Dolphinscheduler ,部署都不知道多少台机器了,直接单机 airflow+mysql ,杠杠的。
总的来说,把带薪学习的时间放在 DBT / CICD /DATAOPS 。
2023-11-12 22:02:19 +08:00
回复了 victorc 创建的主题 OpenAI GPT 是程序员卖给资本家的绞索
"开发一个博客程序" 开发用户注册功能,这只是大三的作业题水平吧。也太初级了。我每天大量使用 gpt4 ,都感觉还不完善,谈替代太早了。
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1064 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 19:38 · PVG 03:38 · LAX 11:38 · JFK 14:38
Developed with CodeLauncher
♥ Do have faith in what you're doing.