数据科学家永不停止学习:访谈


数据科学项目不再只针对学生。现在,数据科学家可以转向开放在线课程和其他资源来提高他们的技能。我们与塔伦德大数据产品营销总监伊莎贝尔·努埃奇坐在一起,深入了解那里有哪些资源。

问:你如何描述数据科学研究过程和机器学习部署过程之间的差异?

伊莎贝尔:从全局来看,数据科学就是科学。数据科学家通过反复试验,在找到适合他们需求的正确模型或算法之前,进行了大量的迭代,并且通常对样本数据进行处理。当信息技术需要大规模部署机器学习时,他们将从数据科学家那里获得工作,并试图为企业大规模复制。不幸的是,它并不总是立即起作用,因为样本数据是不同的,因为现实生活中的数据有不一致之处,通常缺少值以及其他数据质量问题。

问:为什么将机器学习模型投入生产很困难?

伊莎贝尔:数据科学家在实验室模式下工作,这意味着他们经常像孤独的流浪者一样工作。他们花时间探索数据,尝试各种模型,有时可能需要几周甚至几个月的时间将他们的数据模型部署到生产中。到那时,这些模型对于企业来说已经过时了。导致他们不得不回到画板上。数据科学家面临的另一个挑战是数据治理,没有它,数据就成了一种负担。一个很好的例子是临床试验数据,其中敏感的患者信息必须被屏蔽,以便组织中的每个人都无法访问。

问:有哪些绊脚石?

伊莎贝尔:数据科学团队和信息技术之间缺乏合作,双方都倾向于说自己的语言,并拥有对方可能不理解的技能。数据科学通常被认为是一门纯粹的技术学科,与业务需求无关,因为要求通常与快速决策的需求相关联,以便创新和战胜竞争。现有环境(如企业仓库)不够灵活,无法让数据科学团队访问所有历史和粒度信息,因为有些数据存储在磁带上。需要创建一个数据湖来存储所有历史数据,以训练模型并添加实时数据,从而实现实时决策。

问:企业是如何克服的?

伊莎贝尔:企业正在创建云数据湖(更适合大数据量和处理),并利用无服务器处理等新服务和工具来优化大数据量的机器学习处理成本。此外,他们还创建了一个卓越中心,以促进团队之间的合作,并聘请了一名首席数据官(CDO),以真正将数据科学提升为一门商业学科。

问:对于希望简化最大限度地利用部署流程的企业,您有什么建议?

伊莎贝尔:使用工具来自动化手动任务,比如手动编码,以促进数据科学和信息技术团队之间的协作。通过让数据科学团队进行探索和研究,但让信息技术管理和部署数据,使其不再成为组织的负担。并且以连续迭代和交付的方式这样做将在整个组织中实现连续的智能决策。

问:哪些学习数据科学技能的新项目引起了你的注意,它们是如何建立在传统学习项目的基础上的?

伊莎贝尔:我最感兴趣的是使数据科学大众化的新工具,提供图形化、易于使用的用户界面,并为数据集建议最佳算法,而不是经历大量冗长的试验和错误。这些工具使更多的人(如业务分析师)可以访问数据科学,因此企业中更多的人可以从复杂的高级决策分析中受益。这些工具帮助人们获得无需博士学位的实践经验

问:你最喜欢的课程和证书有哪些?

伊莎贝尔:我想说,Coursera提供在线课程,人们可以按照自己的节奏学习,他们甚至提供一些free data sciencefree Machine learning courses也是。另一个很好的选择是麻省理工学院电子学习,它也提供了一门课程Data Science and Big Data

退房Talend Big Data and Machine learning Sandbox开始吧。