机器学习:一切都与数据有关


大数据。分析。物联网。云。在过去的几年里,如果没有这些术语进入对话,你就不能围绕技术进行讨论。他们一直是影响业务方方面面的主要技术颠覆者。变化似乎以惊人的速度发生,没有任何放缓的迹象。今天,似乎技术中唯一不变的就是变化。不断的变化需要不断的创新,从而引入更多的新技术。进入对话的新技术之一是机器学习。Gartner认为机器学习是 top 10 technology trends for 2016。这绝对是一个热门话题。

machine learning-2

一切旧的又是新的

我觉得机器学习的有趣之处在于,机器学习的基本原理可以追溯到七八十年代人工智能研究的早期。当时的工作受到计算机容量和可用数据量的限制。这是使机器学习在最近几年实现飞跃的关键-这两个限制都不再成立。计算周期和数据的可获得性达到了几十年前无法想象的水平。

机器学习的目标听起来很简单:为系统提供基于提供的信息进行学习的能力。虽然听起来很简单,但这与经典的软件工程背道而驰,而且也有它的挑战。大多数软件开发我们都熟悉基于计划和预期的用户和数据交互的系统行为的“硬编码”。标准的“如果-然后-否则”模式。

人工智能/机器学习所需的算法要复杂得多。他们需要允许系统根据输入开发自己的分析模型。这些模型会根据提供的信息不断变化。基于数据和这些模型,确定行为。从描述中可以看出,这会导致非常不确定的行为。系统将根据提供的信息进行分析、解释和反应,将行为修改为更多信息,然后提供反馈。随着时间的推移,分析和行为是不断变化和改进的。想象一下为该系统开发测试套件!(未来讨论的主题)。

您已经收获了机器学习的好处

你有Netflix账户吗?还是亚马逊?Netflix和亚马逊在你每次登录时都会提供一个“推荐给你”的列表。这两家公司都有非常复杂的专有算法,分析关于你及其所有会员交易的巨大信息库。根据这些信息,他们会为你的预期行为建立模型,并向你提供一系列建议。你对这些建议的反应也会反馈到算法中,不断调整和调整你的行为模式。

或者你的智能手机呢?想一想这句简单的话的复杂性,“Siri,今天的天气预报是什么?”首先,该软件需要能够理解您的声音、口音和说话方式,以便能够确定实际正在说的话。如果不确定,软件会要求澄清,它会从澄清中学习。每次你使用它,你的手机都能更好地理解你在说什么。一旦它理解了这些单词,它就必须将自然语言处理成对系统有意义的东西。这同样需要复杂的算法来分析信息、创建模型并执行其解释。与解析单词一样,如果不确定,软件将提示澄清。这一澄清将反馈到系统中,该系统将模拟您的说话方式和您使用的语言的上下文。

这一切都与数据有关

在TechCrunch最近的一篇文章中,How startups can compete with enterprises in artificial intelligence and machine learning’ John Melas-Kyriazi将数据称为“我们提供给训练机器学习模型的燃料,这些模型可以在规模上创造强大的网络效应”。我觉得这是一个非常恰当的类比。复杂的算法和模型是机器学习的引擎,但如果没有燃料,引擎-数据-就不会工作得很好。我的一个同事,John Williams,(首席战略官在Collaborative Consulting)多年来一直喜欢说,“这一切都是关于数据的。”在机器学习的世界里,这是再真实不过的了。

考虑到数据对于任何机器学习实施的成功的重要性,有一些关键的考虑因素需要考虑:

  • 数据质量-在数据领域,这一直是一个重要的考虑因素。数据清理和清理已经是许多组织的标准做法。它已经成为机器学习实现的关键。即使是最好的发动机,把脏燃料放进发动机也会使它急转直下。
  • 数据量-大数据专为机器学习量身定做。算法和后续模型需要使用的信息越多,结果就越好。这里的关键词是学习。随着更多的信息被提供给我们,我们作为个体学到了更多的东西。这个概念直接适用于机器学习领域。
  • 数据及时性-除了数量,新的和及时的数据也是一个考虑因素。如果机器学习是基于完全过时的大量数据,得到的模型将不会很有用。
  • 数据谱系-数据从何而来?这是一个有效的消息来源吗?在使用内部系统时,血统不那么重要,因为来源是众所周知的,但许多机器学习系统将从公共来源获取数据。或者潜在地,来自物联网世界中的许多设备。众包数据(例如,GPS移动应用Waze)需要额外的努力才能确保您信任正在使用的信息。想象一下一种新的网络攻击,向你的机器学习系统提供不良数据来影响结果。还记得微软的问题吗?AI Chatbot Tay学着做个种族主义者?

没有技术可以否定对好的设计和规划的需求

毫无疑问:机器学习技术在影响各行各业方面具有惊人的潜力,无论是在医疗保健领域diagnosing Alzheimer’s diseaseself-driving cars它们曾经属于科幻小说的领域。没有任何技术可以否定良好的设计和规划的必要性,机器学习也不例外。作为技术专家,我们有责任确保做出适当的努力,为机器学习实现提供尽可能好的燃料。了解这些系统的质量、数量、及时性和血统需求可以帮助我们驾驭机器学习的新世界,引导我们成功执行,并最终为业务提供价值。