对数据科学世界的深入研究


数据科学是一个热门话题。我们考察它的历史,从1962年开始到今天它是如何被使用的,并探究为什么这对你很重要。

什么是数据科学,它是如何在公司日常使用的?是个热门话题。探索这些问题并对数据科学生态系统有更深的理解,以及它为什么现在对您重要,以及它在未来对您意味着什么,似乎是值得的。

开头

第一次提到数据科学是在1962年,当时约翰·W·图基(John W.Tukey)写了《数据分析的未来》,他假设数据分析本质上是一门经验科学,并接着写到计算机程序对未来研究将变得多么重要。从那时起,计算机和数据处理确实变得越来越重要。

70年代,彼得·诺尔的计算机方法简明概览,并成立了国际统计计算协会。数据科学在上世纪90年代和21世纪初呈指数级增长,成为今天我们都嫉妒的性感工作。参见福布斯的文章history of data science更详细的查看!

当今生态系统的快照

与早期的数据分析相比,数据科学得到了巨大的发展。过去由于数据存储价格昂贵,公司常常耗尽存储空间,但此后存储和分析成本下降。今天,企业能够使用多年的客户和外部数据源运行回归并发现趋势。数据科学只有通过使用高质量的数据才有可能,然而,因此让我们来分解这些数据来自哪里以及如何使用它。

数据源

Sources

统计学家和数据科学家之间的区别在于,统计学家获得数据并进行回归,而数据科学家发现数据,组织和分析数据,然后以可理解,可操作的方式将相关性传达给他们的组织。为了拥有可操作的数据,数据科学家需要高质量的数据--而这要从高质量的数据源开始。

数据源分为三个主要类别:数据库,应用程序和第三方数据。

数据库

数据库可以是结构化的,也可以是非结构化的。结构化数据库在SQL上运行,并将数据存储在有限数量的列中。通常,结构化数据库被需要完美可靠数据的组织,如银行,金融机构和操作所使用。

非结构化数据库比结构化数据库灵活得多。这允许在查询大量数据时减少摩擦,并允许以结构化数据所不能采用的方式检查数据。这带来了完美和完全一致性的牺牲,但允许一些最伟大的推荐引擎,如Google和Yahoo。

data scientists find the data, organize and analyze it, and then communicate the relevance

第三方数据

According to Bernard Marr,第一个数据中心由美国政府于1965年建成,容纳7.42亿报税表和1.75亿指纹。此后政府数据成为研究最可靠的大数据来源之一,公司投资大数据的做法也变得司空见惯。像这样的供应商Amazon Web Services包含了大量的公共数据,以及其他诸如Factual出售有利可图的业务数据。如果您具有集成和计算能力,那么对像这样的大量数据运行回归可以提供有价值的趋势,为大型企业节省数百万美元。

应用程序

最早成功的云应用程序之一是Salesforce,它于1999年推出,其愿景是通过Web创建可行的企业业务应用程序和数据存储。在Salesforce打破这一障碍之前,将业务数据存储在云中而不是在前提下的想法是荒唐可笑的。从那时起,用于存储和分析数据的云应用程序已经成为大多数企业的绝对必备。

使用这些应用程序的主要缺点是,在大多数情况下,您并不只是使用一个应用程序。你可以使用Workday来进行人力资源管理,使用Google Analytics来衡量绩效,使用Salesforce来跟踪潜在客户,或者使用Marketo来处理营销数据-and the list keeps going。这些系统互不通信,这就是data integration开始发挥作用。

获取数据的ROI

当有如此多的数据源和如此多的供应商和API时,您从哪里开始集成呢?没有人想要处理这个令人望而生畏的任务,但是it is essential对于那些从他们的大数据源中寻找投资回报的人来说。

幸运的是,我们的Progress DataDirect团队提供了最完整,最健壮,最通用的数据连接器。我们的工作和承诺是将任何数据源连接到任何应用程序,并为您提供业内最好的客户服务。Let us help you与您的数据迁移,集成和管理;我们是第一名是有原因的!

到目前为止,我们只讨论了一些基本的内容,请继续关注本系列的其余部分,我们将从这些内容中获得更多的信息Justin Moore(数据科学家,Progress DataDirect)和Sumit Sarkar(Progress DataDirect资深布道者),深入研究数据科学的世界。