V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
findbrick
V2EX  ›  职场话题

v 友们做大数据处理的多吗,想问下你们做大数据的无聊不?

  •  
  •   findbrick · 2017-08-04 13:00:05 +08:00 · 7219 次点击
    这是一个创建于 2650 天前的主题,其中的信息可能已经有所发展或是发生改变。

    反正本人已经做了半年了,感觉挺枯燥的,主要是 java + spark, 有时候也用 py 爬数据。

    32 条回复    2018-05-24 21:35:07 +08:00
    Morriaty
        1
    Morriaty  
       2017-08-04 13:15:13 +08:00
    无聊不至于,就是真正懂算法的不多,公司里号称大数据部门,其实大部分人都是写 sql 的。

    更多的时候,就是自己一个人在瞎摸,就像解一道数学题,从太阳上山到太阳下山,都没解出来,难受。
    xiaoshenke
        2
    xiaoshenke  
       2017-08-04 13:32:20 +08:00
    跑个题,写过 android,写过 java web,都写得差不多腻了。看来我不适合做程序员。
    jason2017
        3
    jason2017  
       2017-08-04 13:37:15 +08:00
    顺便请假题主一个问题,java 写 spark 机器学习应用的时候,用 mllib 多还是 ml 多?哪一个方便点?
    deadEgg
        4
    deadEgg  
       2017-08-04 14:13:48 +08:00
    @jason2017 试试 BigDL
    zhangli199212
        5
    zhangli199212  
       2017-08-04 14:20:28 +08:00
    @Morriaty 一看就是券商类似的
    findbrick
        6
    findbrick  
    OP
       2017-08-04 15:57:00 +08:00
    @jason2017 mllib
    findbrick
        7
    findbrick  
    OP
       2017-08-04 15:58:04 +08:00
    @zhangli199212 是金融行业 非券商
    findbrick
        8
    findbrick  
    OP
       2017-08-04 16:17:49 +08:00
    @Morriaty 有道理 主要还是自己摸索 算法确实是硬伤
    sshpandas
        9
    sshpandas  
       2017-08-04 16:23:49 +08:00
    不无聊,因为经常换项目做,接触的行业不一样,问题也不一样。
    staticor
        10
    staticor  
       2017-08-04 17:12:55 +08:00
    不无聊, 自己喜欢和业务打交道, 现在一半时间做仓库一半时间做分析
    findbrick
        11
    findbrick  
    OP
       2017-08-04 17:39:56 +08:00
    @sshpandas 羡慕经常换项目
    @staticor 基本都是仓库+分析 一起做
    sicongwang
        12
    sicongwang  
       2017-08-04 19:43:45 +08:00
    楼主大数据是不是不算忙, 待遇也比开发高, 想转, 求指教
    af463419014
        13
    af463419014  
       2017-08-04 20:02:38 +08:00   ❤️ 1
    我这里所有的需求总结起来主要有以下 3 种:
    sum(x)
    count(id)
    count(distinct id)
    lszv1
        14
    lszv1  
       2017-08-04 20:24:21 +08:00
    @xiaoshenke 给钱就继续干下去咯
    airqj
        15
    airqj  
       2017-08-04 20:28:55 +08:00
    @jason2017 ml 基于 DataFrame
    人家文档都说 mllib 进入维护状态了
    Delete
        16
    Delete  
       2017-08-04 20:32:34 +08:00
    2-3 年安卓转大数据开发,一本 hadoop 权威指南 看得很累了。。。
    sicongwang
        17
    sicongwang  
       2017-08-04 20:36:59 +08:00
    @af463419014 需求真的有这么简单吗, 那大数据的工作做起来岂不是没有什么业务的压力?
    badttt
        18
    badttt  
       2017-08-04 21:12:10 +08:00 via iPhone
    sql 写得想吐,你说呢
    jason2017
        19
    jason2017  
       2017-08-04 21:17:05 +08:00
    @airqj 是的,但是网上现在关于 ml 的中文资料还是不多,不过,也是迟早要用 ml 的。
    liprais
        20
    liprais  
       2017-08-04 21:25:42 +08:00
    @sicongwang
    这工作只是看起来很简单而已
    Aksura
        21
    Aksura  
       2017-08-04 22:45:31 +08:00
    还好吧,其实主要的还是数据仓库那一套。不过数据本身类型更得更多样、时效性要求更高、加上 ML 的玩法,还是有搞头的。
    lzhCoooder
        22
    lzhCoooder  
       2017-08-04 23:40:02 +08:00
    同感觉挺无聊的,下次换工作准备转开发
    airqj
        23
    airqj  
       2017-08-05 00:11:29 +08:00 via Android
    @jason2017 例子源码就是最好的文档
    要想理解算法可以用 scikit-learn 啊
    pathbox
        24
    pathbox  
       2017-08-05 00:46:25 +08:00 via iPhone
    何为大数据
    eyp82
        25
    eyp82  
       2017-08-05 01:53:12 +08:00
    其实现在大部分的所谓大数据岗位跟以前的数据仓库运维没多大区别. 写有限的几行代码 或者脚本, 配置一下 data pipeline, 搞搞 map, reduce 之类有限的几个算子(现在的 spark 还稍微多一些), 用现成的 ML 库灌点数据训练一下, 发现效果跟预期不符然后东搞搞西搞搞, 调调优(还没有方法论支撑,全自己或网上找的黑魔法), 弄点大家都知道的结论放 ppt 上吹嘘一下大数据多么神妙... 论创造性比不上正宗的软件开发, 只是最近流行, 所以看起来高大上一点而已.

    我编不下去了, 我坦白就是想赚铜币, 大家别拍.
    bbx
        26
    bbx  
       2017-08-05 02:00:31 +08:00
    如果觉得简单,那是数据量太小,系统太简单
    jason2017
        27
    jason2017  
       2017-08-05 10:17:31 +08:00
    @eyp82
    瞎说什么大实话
    lcj2class
        28
    lcj2class  
       2017-08-06 06:41:13 +08:00 via Android
    可以多去了解整个系统。
    比如 ETL 流程,工作流调度框架,血缘关系分析
    findbrick
        29
    findbrick  
    OP
       2017-08-06 16:32:30 +08:00 via iPhone
    @af463419014
    这就有些初级了吧
    FollowHeart
        30
    FollowHeart  
       2017-08-10 08:39:44 +08:00
    @pathbox 就是以前人口中的统计 /滑稽
    pathbox
        31
    pathbox  
       2017-08-10 12:43:03 +08:00 via iPhone
    @FollowHeart 哈哈
    peterpan235
        32
    peterpan235  
       2018-05-24 21:35:07 +08:00
    所以呢?做前端后台每天写一些重复的业务代码不无聊?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1061 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 19:39 · PVG 03:39 · LAX 11:39 · JFK 14:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.