数据工程师比数据科学家更受欢迎


现在似乎每个人都想成为一名数据科学家。早在2012年,哈佛就宣布这份工作是十年来最热门的工作之一。从那以后,人们就一直在叫嚣着要扮演这个角色,不管鞋子合不合脚。所以毫无疑问,这份工作很热,很热,很热。

但如果一个数据科学家创造了一个突破性的算法,而没有数据工程师将其投入生产供业务使用,那么它还有什么价值吗?我将重复我最喜欢的来自Gartner的统计数据,即只有15%的大数据项目将其投入生产。虽然他们从来不去探究为什么85%的大数据项目都没有成功的原因,但我会提出这些项目失败的几个关键原因:

  1. 他们从来没有发现值得投入生产的洞察力
  2. 他们找到了一个洞察力并构建了一个模型,但却无法构建一个可以在服务级别协议内可重复运行的生产管道
  3. 他们不需要洞察力,因为他们想要运行的数据分析并不依赖于某个复杂的模型,但仍然无法构建一个可以在服务级别协议内可重复运行的生产管道

这就是为什么每有一名数据科学家,公司就需要至少两名数据工程师 Jesse Anderson’s blog本周在Oreilly.com上,你可能需要多达5个数据工程师/每1个数据科学家。在一个 recent blog, also this week, posted by Dave Wells他提到,“Forrester Research的Michelle Goetz报告称,数据工程领域的空缺职位是数据科学领域空缺职位的12倍。”尽管Michelle在去年11月发表了一篇文章,标题是, Data Engineers Will Be More Important Than Data Scientists 我认为那艘船已经开航了。

如果我可以引用InfoWorks.io的执行主席Buno Pati的话,没有数据的“AI”只是“A”。你必须先把数据交给数据科学家,然后一旦他们有了他们需要的数据来实现他们的数据科学魔法,并且确定了一个对业务有用的洞察力,这个洞察力必须被操作化。事实证明,大规模地操作机器学习算法,仅仅是大规模地管理数据管道就是它本身的魔力。

正如我在my last blog,Cloudera库存下降的原因是难以将Hadoop实现到生产中。这个问题是由Hadoop的复杂性以及缺乏足够有才华的大数据工程师来正确构建生产工作流造成的。巧合的是,也许不是这么巧合,在过去的一周,有两个博客,上面提到,都在谈论数据工程师的重要性。

有一件事很清楚。在撰写本文时,对数据工程师的需求越来越大。幸运的是,数据工程角色中比较繁琐的方面可以自动化,让数据工程师更多地关注管道的逻辑。因此,尽管数据工程师可能比数据科学家更重要,但自动化的形式是有希望的,它可以使今天的数据工程师的工作效率提高10倍。

与集成开发环境IDE显著提高软件开发人员的工作效率相同,数据工程自动化也将在大数据空间中实现同样的功能。因此,尽管数据工程很难,数据工程师很少,需求很高,但这篇博文恰好位于一个关于自动化大数据工程的网站上,这并非巧合。因此,如果你是一名大数据工程师,并且你想提高工作效率,或者你认识一名大数据工程师,或者有人想成为一名大数据工程师,请阅读本网站的其余部分,了解更多关于如何帮助响应当前对数据工程的需求,并将数据科学算法投入生产的信息。