使机器学习为企业所用:第1部分


什么是机器学习?为什么机器学习现在比以往任何时候都更加相关,为什么它将成为所有业务的颠覆性力量?我们已经听够了,读够了!在本文中,我们将重点讨论企业在迈向AI主导的企业软件和解决方案的征途中为其团队赋能的关键考虑因素。

在企业的背景下,以下是企业在评估平台时需要考虑的一些关键领域,这些平台是为了让他们的团队使用机器学习交付成功的结果。

  • 数据转换和建模的速度和规模
  • 数据科学自动化
  • 模型可解释性
  • 模型治理(可追溯性,部署和监控)

数据转换和建模的速度和规模

通常,大型企业数据集不能在计算机内处理,而需要以并行和分布式的方式进行处理。例如,现在每30秒就会捕获来自冷却器/工业机器/IoT设备的传感器数据,多年来收集的这些数据产生大数据。从传感器,业务线应用程序或数据仓库捕获的数据必须转换成适合机器学习建模的形式。在项目中工作的数据工程师应该能够通过像Apache Spark这样的分布式计算框架来执行所需的转换,比如数据归算,分类数据转换等等。

对速度和可伸缩性的需求具有更大的好处,不仅对于转换数据集,而且对于模型创建也是如此。机器学习模型通常提供更好的结果与更多的经验,这意味着更多的数据。虽然R中的模型或Python中的Scikit-learn在Kaggle中发布的较小数据集上可以很好地工作,但它们有时不适合企业数据量。在数小时内而不是数天内创建模型有助于数据科学家迭代多个假设,这是获得更好模型准确性的关键。因此,需要在驻留在多台机器上的数据分区上实现用于并行计算的ML模型。

数据科学自动化

“AI人才”(数据科学家,机器学习专家等)短缺仍然是阻碍AI跨企业采用的关键挑战。还有什么比让他们的工程师和业务分析师用工具来解决这些问题更好的方法来处理这种人才紧缩。今天有一些平台可以通过自动模型选择,超参数调优和特征工程能力使数据科学民主化。例如,为基于树的ML算法(如梯度增强树)选择适当的树数,深度和学习率值并不简单,需要大量的经验。这些平台迭代不同的机器学习模型,根据它们的超参数调优每个模型,并根据业务指标选择最佳模型。数据科学的最佳实践,如交叉验证,处理不平衡数据集,处理高维分类特征,也由这些平台自动化。这些使得在数据科学方面几乎没有或有限经验的企业主,分析师和开发人员能够获得专家级别的ML结果。它们还使企业能够使用机器学习来解决整个组织中各种类型的业务问题。

在下一部分中,我们将讨论企业推出基于机器学习的解决方案以解决具有挑战性的业务问题的其他关键需求。