机器学习存在数据集成问题:自助服务的需求


当我们建造Iris Integration Assistant,一个人工智能驱动的推荐引擎,这是SnapLogic首次进军机器学习(ML)领域。虽然这次经历给我们留下了许多有用的见解,但有一个超越了睡觉:我们发现,机器学习充满了data integration challenges

当然,在这个过程中,我们理解开发ML模型需要集成数据。但我们没有意识到整合挑战会有多么严峻和广泛。

整合障碍是规范

事实上,我们并不是唯一一个在冒险进入机器学习领域时遇到了许多集成障碍的人。一项对近200名数据科学家的调查显示that 53 percent of respondents他们将大部分时间花在收集、标记、清理和组织数据上-所有这些都是集成任务。

不幸的是,在机器学习中,您无法逃避清理和准备数据的需要。如果你用错误的数据训练一个模型,你会得到一个错误的模型作为回报。“肮脏的数据”仍然是当今数据科学家面临的最大问题。[1]

这使我们得出结论,在整个机器学习生命周期中集成数据的需求不会消失。但是,解决这些数据集成问题的主流代码优先方法必须改变。手动集成任务耗费了数据科学家本应花费在战略性、高影响力工作上的宝贵时间。在最糟糕的情况下,它们会完全阻碍你的机器学习项目,让你看不到你的人工智能投资承诺的回报。

机器学习的开发和部署是in desperate need of self-service integration

机器学习中的主要集成挑战是什么?

一开始,数据科学家就遇到了集成挑战。他们必须从各种来源获取数据,目标是创建一个大型、高质量的培训数据集。

数据科学家可能需要从Amazon S3等云数据湖提取POS数据,从Web服务器提取日志文件,或者从Oracle ERP系统收集库存数据。通常,他们会要求IT部门以一次性数据转储的形式访问这些数据。或者,他们将用比方说Python编写自定义脚本。这两种选择都很慢,很难可靠地重复。如果数据科学家想要访问给定数据源中的其他表,他们必须采取同样繁琐的步骤,从而进一步延迟其价值实现时间。

更多的集成挑战困扰着数据科学家,因为他们正在准备他们已经获得的原始数据。他们必须用过滤删除不相关的细节,擦除敏感信息,检测并删除错误,更改数据类型,清除缺失的值,并艰难地完成其他数据清理琐事。传统上,数据科学家将通过在Jupyter笔记本中使用Python或另一种编程语言编码来准备数据。可以肯定的是,编码在定制数据方面提供了灵活性,但是为了非战略性、单调的工作,它占用了宝贵的时间。

整合的负担不止于此。一旦数据科学家选择了算法(例如,逻辑回归),他们必须向模型提供他们辛辛苦苦准备的训练数据。这同样需要更多的编码。训练结束后,模型必须经过测试和交叉验证,以确保其预测的准确性。更多的集成,更多的编码。

当模型最终准备好在现实世界中使用时,数据科学家通常必须将模型交给软件开发团队(DevOps)进行操作。在许多情况下,DevOps必须将此代码转换为不同的格式。更重要的是,它们必须将模型托管在Web服务中以满足API请求。这类活动很大程度上涉及集成,需要手动编写脚本。

理想情况下,在模型上线后,您将迭代模型以不断提高其预测精度。但是,只有不断地用新数据训练它,才能做到这一点。这意味着您必须经历获取新源数据、清理和准备数据、招募开发人员将模型重新投入生产等整个繁琐的过程。

传统的机器学习方法中的过度编码、冗余和人工试错是不能持续的。现在是将自助服务集成引入机器学习过程的时候了。

设想机器学习的自助式未来

机器学习生命周期的自助式解决方案应该使例行工作(但仍很重要)自动化,如洗牌数据。它还应该杜绝裁员。例如,在创建初始训练数据集时,您应该能够集成一次源数据,然后在将来重复使用该管道进行持续训练。

在自助服务环境中,数据科学家将不再将收集、清理和组织数据等集成活动安排得满满当当。取而代之的是,他们将采用批判性思维,解决关键的业务问题,建立非凡的机器学习模型,构思人工智能的其他用例,并找到增加价值的新方法。

自助式ML还应该让那些专业技能较低但符合业务优先顺序的人(例如,业务分析师和公民数据科学家)能够访问机器学习。就像其他领域的任务“民主化”一样,这将减少瓶颈,并使组织内更多的人能够通过机器学习来交付结果。

这将使公司能够探索比其他情况下可以应用这项技术的更多领域。因此,他们将能够产生更多有效的模型,为企业带来价值。

自助服务ML的影响将是巨大的

最终,自助式ML解决方案应该会加速机器学习的开发和部署。这将使公司能够探索比其他情况下更多的技术可以应用的领域。因此,他们将产生更多有效的模型,为企业带来价值。比方说,他们不仅将拥有简化运营的模式,而且还将拥有提高产品安全性、增加现有产品销量和打造新的收入渠道的模式。

我们描述的是一个自助式解决方案,既可以处理数据集成,也可以处理机器学习开发和部署。这样的解决方案的影响可能是深远的。在SnapLogic,我们有预感self-service Machine Learning很可能就在拐弯处。敬请关注。

__

[1]这是基于对数千名数据科学家的调查得出的。这一特定的调查问题收到了来自数据科学家和其他以数据为中心的专业人士(如分析师、数据工程师、程序员等)的7376个回复。
https://www.kaggle.com/surveys/2017