我在家初创公司工作,做着数据处理的工作。公司其他人从外面采取数据回来,我就将其进行分类和汇总。但只不过在文件夹里剪切复制数据、然后统计在 excel 表而已,算不上数据处理的有含量技术。 现在领导让我自由地处理和管理这些数据,但我对数据处理管理这方面毫无经验、也不知从哪下手。我想知道做数据处理的大佬们从开始是怎样去做数据处理、从哪获取数据管理知识和数据处理管理的工具? 小弟先在此谢过各位大佬了。握拳
1
fox1751 2018-11-19 23:26:48 +08:00 via iPhone
多大数据量的
|
2
liprais 2018-11-19 23:28:57 +08:00
你处理完了这些数据被拿去干啥了
|
3
xmadi 2018-11-19 23:37:55 +08:00 via iPhone
数据到手 首先要做的是保存原始数据 然后再清洗整理 然后把清洗后数据入到库 可以是 mysql 或者其他各种数据仓库 最后按照需求从数据仓库里面拿数据 进行分析统计什么的
|
4
imn1 2018-11-20 00:42:40 +08:00
所有数据分析都是先学交叉分析的,简单讲就是交并差
最简单的工具,数据量小就是 excel,数据量大就是 SQL,然后才是编程 |
5
YoungBalance OP @fox1751 不多,十几 G 吧
|
6
YoungBalance OP @liprais 数据都拿去给机器学习了
|
7
YoungBalance OP @xmadi 好的,我先从数据库入手看看
|
8
YoungBalance OP @imn1 交叉分析,我去了解下
|
9
myhot21 2018-11-20 08:00:55 +08:00 via Android
把你剪切复制的工作用代码实现
|
10
YoungBalance OP |
11
YoungBalance OP @myhot21 平时用 python 写脚本做这些工作,但还是觉得远远不够
|
12
nl101531 2018-11-20 09:03:23 +08:00 via Android
hdfs+hive ?
|
13
YoungBalance OP @nl101531 用 Hadoop 去处理这十几 G 数据,是否大刀小用?
|
14
nl101531 2018-11-20 09:22:57 +08:00 via Android
@YoungBalance 还好吧。。。如果你对大数据处理感兴趣可以搞一下
|
15
YoungBalance OP @nl101531 好的,我试着搞搞
|
16
yuikns 2018-11-20 09:48:04 +08:00 via iPad
看需不需要横向扩展。比如可以预期的五年后,数据量是 100G 还是 10T 以上。前者的话好好学习 postgres 会很爽的,后者可以预先学下 spark 工具
|
17
YoungBalance OP @yuikns 最近确实想深入 postgresql,多谢了
|
18
yuikns 2018-11-20 11:00:30 +08:00 via iPad
@YoungBalance 以前上课时候老师和我们说,什么叫做 bigdata 呢?其实并没有什么学术上定义,非要来个,数据之大,一台机器放不下。简单的 select join 下还是 psql 单机无敌。以后要是大了也可以塞 cockroach 去 https://www.cockroachlabs.com 。这是个分布式数据库,兼容 psql 协议,也可以做 spark 数据源。只有在必须要大数据时候再用大数据。否则就是糊弄下投资人的。
|
19
YoungBalance OP @yuikns 现在的我还是狭义认为 postgresql 是个存储数据库的想法。但我想更加知道 postgresql 在数据挖掘、数据处理方面的知识,该从何处入手?
|