小数据遇到大数据


自从几辈子前从商学院毕业后,我就一直在用数据来解决商业问题。我能帮上忙:

  • 宝洁公司知道弹力织物柔软剂和普通织物柔软剂之间的最佳差价。
  • Rolaids知道他们的广告预算与市场份额有很强的正相关关系。
  • 美联银行发现了“心型”广告和“转换偏好”之间的关联
  • 蓝十字和蓝盾认为他们的广告与减少对品牌的负面看法、增加对品牌的正面看法以及增加入境销售线索之间存在正相关关系。

我去了TDWI's big data and analytics conference看看我还需要学些什么来利用我对数据的热爱和帮助解决业务问题的愿望。

以下是每堂课的一些要点。

数据科学最佳实践

  • 分析的目的是将数据转化为指导积极业务行动的见解。
  • 唯一最大的问题是文化而非技术——优步、莱夫特、网飞和亚马逊都是由数据驱动的,都有一种固有的数据驱动文化。
  • 洞察力对组织中不同的人意味着不同的事情。
    • 数据分析是关于发现模式、计算机分析、理解和洞察力。
    • 商业分析是关于发现意义、人类分析、决策和行动。
  • 从思考你试图解决的问题开始,然后是战略、战术和行动。不要用硬币追逐硬币。用镍币解决100美元的问题。
  • 跨行业数据挖掘标准流程(CRISP-DM)是最广泛使用的数据挖掘流程。
  • “数据挖掘”是一个用词不当的词,因为你真正挖掘的是洞察力——洞察力是金子。

问正确的问题

  • 获取原始形式的数据,并轻松操作。
  • 首先对每个变量进行排序,看看你有什么,混乱在哪里。
  • 从基于公司逻辑、数学、信息技术和商业知识的技能中收集见解。
  • 大数据只是信息的一个来源。着眼于整个世界,根据需求和您对数据的看法,指导进一步的数据收集。
  • 了解数据是如何收集的,了解业务需求是什么,保持透明,并记录您的工作。有人会在你完成项目几个月后问问题。

数据科学概述

  • 数据科学家有七种类型:1)数字处理器;2)数据工程师;3)旧式建模者;4)线性领域专家;5)数学建模师/科学家;6)现代机器学习者(Xgboost);7)深入学习的极客。
  • 每个人都需要良好的SQL技能来提取他们需要分析的数据。
  • 求知欲比教育更重要——能够注意到数据中奇怪的东西,然后挖掘出来。
  • 超越被问到的问题,问为什么被问到这个问题。
  • 愿意在不确定和噪音中工作。
  • 预先定义你想要解决的问题。大多数项目失败是因为他们试图解决错误的问题。
  • 学习几种算法技术,这样你就有足够的广度去做你正在做的事情。
  • 构建大量模型,并将其聚合以获得性能最佳的模型。

为预测建模准备数据

  • 数据分析师的九项技能:1)教育;2) SAS和/或R;3) Python编码;4) Hadoop平台;5)数据库/编码;6)非结构化数据;7)求知欲;8)商业头脑;9)沟通技巧。
  • 您准备数据的方式将根据您要使用的算法而有所不同。
  • 数据准备是80%的工作。
  • 不要以为你为一项工作准备的数据是为另一项工作准备的。

数据建模:构建和评估模型

  • 认识相关性和因果关系的区别。
  • 将模型投入生产,并将预测结果与实际结果进行比较,从而为模型打分。
  • 十桶测试检查模型的准确性:每次用不同的十分之一的数据测试十次。
  • 模型变化的频率取决于数据和行业的波动性。

有效地可视化和交流数据

  • 数据可视化的目标是良好的沟通。
  • 了解数据主题的预期目的以及将观看可视化的受众。
  • 消除图表垃圾:定量信息显示中的非信息或信息模糊元素。
  • 教育那些参与数据科学过程的人有效可视化的价值。
  • 混淆矩阵是评估分类模型准确性的好方法。
  • 分类模型有效性的增益或提升是您在使用和不使用模型时得到的结果之间的比率。

数据挖掘

  • 有统计学背景的人更容易理解。
  • RStudio是一个面向r的集成开发环境
  • r已经发展成为许多学科和行业的统计计算标准。
  • 机器学习包括:
    • 统计学习:线性和逻辑回归。
    • 监督学习:数据科学家需要设计特征。
    • 无监督学习:算法不需要任何人设计特征就能找到模式。
    • 深度学习:构建机器学习,将人工智能与神经网络和强大的计算能力结合起来,用更多的数据更快地训练模型。
  • Python更适合深度学习。
  • 用随机森林提升或包装你的模型——一个经过实践检验的真实方法。

用于数据分析的Python

  • 更受开发者和程序员的欢迎。
  • 脚本、快速原型和数据科学/机器学习的流行选择。
  • Jupyter Network是一个网络应用程序,它允许你用交互式的、可运行的代码创建和共享“科学笔记本”,使它们成为探索性分析的完美工具。
  • 熊猫面板数据是Python库中最受欢迎的。

预测分析

  • CRISP-DM是最流行的预测分析方法。
  • 如果一个项目没有回报,那是一项支出,而不是投资。
  • 真阳性、真阴性、假阳性和假阴性的投资回报率是多少?
    • 如果不超过100万美元,就不值得追求。
  • 大多数组织都有一个基于他们最大痛点的项目概念。他们需要五到六个人来评估什么最适合预测分析。许多项目是商业智能和预测分析。
  • 评估、计划、准备、建模、验证、部署和监控每个项目。
  • 公司需要一个分析经理来管理这个过程,并充当C层和数据科学家/分析师之间的接口。
  • 最精确的模型不一定是最好的。
"数据挖掘结果的价值不是由预测模型的准确性或稳定性决定的."——汤姆·哈巴扎

再过一两年,“大数据”将只是“数据”,它将推动所有前瞻性组织的重大业务决策。