V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ellenblow
V2EX  ›  求职

我们找了 4 家大数据公司技术 Leader,聊了聊算法和数据挖掘工程师的机会和选择

  •  
  •   ellenblow · 2017-07-26 14:41:00 +08:00 · 2571 次点击
    这是一个创建于 2679 天前的主题,其中的信息可能已经有所发展或是发生改变。

    「实在太难了,但现在也没有很好的办法。」

    当话题转向「算法工程师的招聘」时,TalkingData 首席数据科学家张夏天不免面露难色起来。而在此之前,谈论起算法和数据挖掘等具体业务时,他还滔滔不绝、兴致勃勃。

    不只是张夏天,自去年 10 月以来,不止一位技术 Leader 曾向我吐过「招聘算法工程师难」的苦水。尽管「算法」背后代表的是「人工智能、机器学习」等被看作是未来发展方向的前沿技术,但招聘相关领域人才确实是摆在不少创业公司面前的一道难题。

    100offer 的平台数据也侧面论证了这一点。截至目前,100offer 平台上的算法和数据挖掘工程师面试邀请数占到全部岗位的比例仅有 6% 左右。整个互联网世界,算法和数据挖掘工程师比例也差不多这个数字。

    与此同时,一个可以观察到的事实是,随着人工智能和机器学习的逐渐火热,企业对算法和数据挖掘岗位的技术人才需求是逐步增多的,且相较其他岗位的招聘需求,其增长速度更快。

    一.

    天平的一端是,越来越火热的大数据、人工智能领域带来的人才需求增多,另一端却是人才相对的稀缺,这就形成了目前算法和数据挖掘工程师招聘难的现状。

    但具体原因是什么呢?在与几位大数据公司的技术 Leader 沟通后,我抽象总结出了这两点:

    人工智能起步晚,底蕴薄,很难有行业资深人才

    对人才招聘难的苦水,大多集中在「很难有资深人才」上。这是一个无法回避的事实。

    人工智能的确不是一个新鲜名词。早在上世纪 50 年代,就有科学家提出了「人工智能」的概念,但人工智能真正从一个概念、一个研究方向,演变成一项被认为是可以落地实现的技术,仅仅是过去不足 10 年时间。很多时候,人工智能在大众的眼里最生动的形象仍停留在,去年在围棋项目上击败李世石的 Google AlphaGo。

    在这样的前提下,要想发现一名在算法和数据挖掘领域拥有五年以上工作经验的技术人才实属困难——没有哪一家公司不希望拥有资深技术人才,作为整个团队的支柱。不少公司都坦言,团队大数据相关领域人才工作经验三年以下占到 60%。

    不同行业区别大,要求严苛

    作为人工智能的核心,机器学习是一套能应用于各个行业的基础技术。通常情况下,机器学习不会以纯粹的形态出现,而是与图形图像识别、个性化推荐、互联网金融等等具体业务结合。

    不同业务代表了不同的行业,也能诞生不同创业公司。尽管运用的底层技术核心都是机器学习,但彼此之间差别甚大。

    通常情况下,一个理想的算法和数据挖掘工程师候选人是,既有机器学习理论知识、算法和数据挖掘实践经验,又有 Ta 想要从事的具体行业的所要求的基本知识和能力,例如计算机视觉能力、内容分发知识、互联网金融知识等等。

    显然,这样严苛的要求可能会阻碍不少希望从事相关岗位的技术人才——过往的工作经验也许只能满足其中一至两项标准。

    二.

    招聘难的另一面,显然是意欲从事算法和数据挖掘岗位的技术人才的巨大机会。对候选人来说,有哪些可行的选择呢?

    这里,100offer 选择了一点资讯、宜信大数据研究中心、格灵深瞳、TalkingData 四个团队——分别代表当下机器学习典型的「内容分发、互联网金融、图形图像计算机视觉、大数据服务」四个不同应用领域——作为研究标的物。

    在与四家公司的技术 Leader 沟通后,看看这四家公司的特点和难点,权当是抛砖引玉,或许可以作为你选择时的参考。

    一点资讯

    某种意义上,一点资讯是一家依赖于算法技术的创业公司。

    一点资讯技术 Leader 这样解释这一点,「举个例子,与电商行业相比,淘宝去掉所有机器学习的算法,依然值 1000 亿美金。但在内容分发行业,去掉算法,整个行业就倒退到 10 年前,不值钱了。」

    可以说,算法驱动了整个内容分发行业向前发展,一点资讯自然也身处其中。在一点资讯技术 Leader 王元元眼里,这成了一点资讯的优势,也是一大难点。

    优势在于算法驱动带来的「个性化推荐」如新鲜糖果一般,吸引了早已习惯将自身全部碎片时间「倾注」到手机屏幕的普罗大众。相比起过往阅读千篇一律的内容,为每一个用户推荐独一无二的内容——这一机器学习算法在内容分发行业的外在产品形态,给予了人们十足的新鲜感。

    估值 110 亿美元的今日头条,证明了资本对这一行业持有的巨大想象力。作为追赶者身份的一点资讯,也享受到了资本和用户的目光。

    对一个相关行业从业人员来说,没有什么比「这代表了未来」更能兴奋的了。更何况,算法和数据挖掘工程师恰恰是内容分发行业未来的基础。

    但与此同时,个性化推荐带来的一大可能的弊端是,机器发现人性的特点让所谓低俗、娱乐的消遣性内容当道,这消磨了一部分用户的信任,也给从业者带来了挑战——谁能解决这一弊端或许就能走得更远。

    王元元认为,本质上,整个内容分发行业都推崇的「个性化推荐」背后运用到的技术和方法,大同小异。一点资讯想出的差异化方法是,在消遣性内容之外,强调价值阅读,为用户引导一些他们可能感兴趣的垂直性有价值的内容。这在一点资讯内部被称作「兴趣探索」。

    短期来看,这些内容的点击率不一定特别高,但对用户的长期留存却有帮助。更重要的是,对一点资讯来说,它们符合公司整体「培养用户阅读品味」的价值观,也有利于构建一点资讯的竞争差异性。

    宜信大数据创新中心

    宜信大数据创新中心可能是互联网金融领域,与机器学习走得最近的团队,旗下 4 款产品都是机器学习的产物——理财平台「指旺理财」和小额信贷服务「商通贷」的内在技术是构建在算法模型之上的用户画像征信和个性化推荐,风控引擎「姨搜」则更是大数据技术的集中体现。

    在一家互联网金融公司从事算法和数据挖掘相关工作,听起来就是一项复杂的工作。宜信大数据创新中心技术总监郑赟表达了同样的意思,「和其他大数据公司不同,互联网金融具有不可避免的特点——数据获取周期长、成本高。」

    众所周知,大数据的基础是数据,没有数据,就无从谈起算法和数据挖掘。对互联网金融行业来说,每一个样本数据就是一笔信贷业务。短则半年、长则数年的信贷周期,使得宜信大数据创新中心获取数据的周期特别长。这是其一。

    其二,对互联网金融领域的机器学习来说,模型训练的一个目的是识别坏账样本,提前控制风险。但没有遇到过坏账样本,机器是无法被训练出具备识别其他坏账样本的可能性。这意味着,互联网金融的算法和数据挖掘需要以坏账为代价。

    但显然,一旦遇到坏账样本,就意味着业务亏本。「很有可能 1 个坏样本需要 100 个好样本才能抵消亏损」,这意味着,宜信大数据创新中心获取数据的成本远超其他行业的高。

    这项技术挑战显然给宜信大数据创新中心提出了更高的标准——从算法和数据底层研究上,更为细致谨慎,才能将这样的风险降至最低。

    硬币的另一面,郑赟表示,「互联网金融领域的数据,尽管不如电商或内容分发行业的频率高,但它信息更丰富,也更有价值,也更有利于从业人员的研究。」

    格灵深瞳

    印象里,格灵深瞳是一家专注在计算机视觉的大数据创业公司,图形图像识别、安防、机器人、无人驾驶等都是格灵深瞳的研究方向。

    去年底,格灵深瞳还推出过一款基于人眼工作原理的摄像机——深瞳人眼摄像机。甚至,还曾拉来前英特尔中国研究院院长吴甘沙,联合成立驭势科技公司,专注研究无人驾驶视觉的解决方案。

    看起来比其他公司更多的动作背后,格灵深瞳技术副总裁解释称,这是因为格灵深瞳不愿意将自己定义为算法公司,而是一家提供视频大数据产品和解决方案的公司。

    产品和解决方案占据了格灵深瞳很大的重心。格灵深瞳 CTO 邓亚峰认为,目前这个时间点,人工智能还不具备成为一种通用的能力。「算法是无法单独成立的,它必须融入到具体产品和解决方案上,才能存在意义。而这也让格灵深瞳才能具备行业竞争力。」

    但对格灵深瞳来说,产品和解决方案并非易事一件,更何况它是四家团队中唯一一家需要硬件产品的团队。即使去年推出了人眼摄像机「深瞳」,但实际效果和市场反响,其实远达不到支撑起整个团队的行业竞争力。甚至,机器人、无人驾驶,听起来都是至少 5 年才能有产品真正落地实现的领域。对一家创业公司来说,时间可能也是一项难题。

    TalkingData

    作为一家大数据服务公司,TalkingData 并没有与图形图像、内容分发等具体业务相结合。但 TalkingData 却有大数据研究得天独厚的优势——海量数据。

    首席数据科学家张夏天说:「 TalkingData 最不缺的就是数据。」 TalkingData 官网显示,目前已经覆盖 51 亿款移动终端——每一款移动终端都可以看作是一份数据。这些数据可被应用到用户画像、市场营销、风险控制、情景识别等等多种使用途径。

    举个例子,当知道设备信息,需要猜测背后使用者的年龄、性别等信息时,机器学习就派上了用场。此时,算法和数据挖掘工程师就需要就已知的数据信息,搭建起一套行之有效的模型,并训练机器进行之后的工作。而一旦这些用户信息被猜测出,则可以被应用到用户画像、市场营销等领域。

    既然算法和数据挖掘工程师,每天的使命便是与数据打交道,抛开具体行业,单纯研究数据显然同样有价值。甚至,对不少感兴趣算法和数据挖掘岗位的工程师而言,进入一个不需要具体行业经验的领域,是一件吸引力不错的机会。

    三.

    在看过四家公司的特点后,具体来说,技术负责人们对算法和数据挖掘工程师有怎样要求呢?事实上,他们对候选人提出的要求大致相同:

    基础工程能力强,语言并非绝对

    偏向计算机底层系统研究的 Java、C++ 语言是技术负责人比较青睐的,但语言并非选择一名候选人的绝对标准。就拿宜信大数据创新中心举例,一段时间,它们需要 Go 语言工程师,但却没有苛求这一点。

    相较于语言,技术负责人更看重的要求是,候选人的基础工程能力,即代码能力。在自己擅长的领域里有深刻的理解和研究,是技术负责人们欣赏的品质。拥有这一品质,通常代表了,未来学习新语言和技术,都是水到渠成。

    理解算法和数据挖掘理论知识

    由于行业起步晚,很多时候,候选人并没有太多算法和数据挖掘的实践经验。因此,对算法和数据挖掘理论知识的理解就成为了重要考虑因素。

    毕竟,拥有理论知识的理解,候选人一方面能快速融入岗位,另一方面也代表了候选人是真正愿意热爱大数据和机器学习研究。

    看重潜力培养,而非现有能力

    意外的是,这四家公司都愿意招聘应届毕业生,或者是高校研究所的研究人才。这在一个相对尖精的行业并不多见。

    这其实还是要归因到人工智能行业的起步晚,以及算法和数据挖掘工程师的招聘难题。在技术 Leader 们看来,「现在会什么」并不重要,候选人将来能会什么才更重要。

    在这样的情况下,有潜力的候选人反而能获得青睐。而「有潜力」,不只是应届毕业生,也包括其他想转行数据和算法挖掘领域的技术人才。

    优秀的基础职业素养和迎接挑战的心态

    事实上,在技术负责人眼里,学习能力、自我驱动力、逻辑分析能力等基础职业素养,在招聘时占有比较大的比重。

    算法和数据挖掘代表的大数据,依然是一个新兴的行业,困难和挑战不可预期,优秀的基础职业素养,能保证候选人有直面挑战的良好心态。这是技术负责人一致看好的。

    四.

    人工智能是什么?

    100offer 这样认为,「人工智能是未来十年互联网的基础,就如当下的互联网之于每个人一样」。

    如此,算法和数据又是什么?人工智能赖以维系的条件,自然也是未来互联网基础的基础。这并非夸大说法。在与四位技术负责人沟通时,他们都表达了相似的说法。

    未来的互联网是建立在人工智能及大数据算法之上。尽管时下不到 5% 的技术人才在从事算法和数据挖掘工作,但如果放眼未来,这一数字一定会变得更多,甚至数据挖掘和算法分析会成为互联网技术人才的必修技能。

    诸多笔墨都阐释了一个现象:当下仍处在人才井喷的初期。与之对应的是,行业需求旺盛、供给紧缺,多元发展、选择领域众多,以及技术 Leader 对人才的要求相对放宽、看重潜力和学习而非当下能力......种种的一切,似乎都为每一个想要进入数据挖掘和算法分析领域的人提供了便利。

    正如 150 多年前美国西部的淘金者,越早进入,机会越大。或许,现在就是一个「成为一名算法和数据挖掘工程师」不错的时机。

    -------------------- 相关知乎 Live 推荐 ---------------------

    在成为一名优秀的大数据工程师前,你需要做哪些准备?我们精心准备了「大数据工程师」的专题 Live,从几家不同类别的互联网公司中邀请优秀团队技术 Leader,用真实的案例告诉你,顶尖的技术团队在做些什么?技术面试该如何准备?如何实现技术成长?

    只要一杯“星爸爸”的花费就可以收获四场满满干货,对大数据感兴趣的小伙伴,赶紧戳下面链接上车吧!

    知乎 Live 专题入口 - 成为优秀大数据工程师前需要知道的事

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2710 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 15:25 · PVG 23:25 · LAX 07:25 · JFK 10:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.