特别数据争论与生产数据工程和集成


自助式数据分析和数据争论在过去几年里风靡一时。这种想法公民数据科学家公民数据分析员如果只是给了合适的工具,就能摆脱它的束缚去做自己的数据分析项目是非常有吸引力的。他们可以访问数据湖中的数据,还可以使用特殊的数据集成和分析工具在类似电子表格的界面中操作这些数据,该界面可以做一些聪明的事情,比如标准化数据格式,提出连接条件,并提出各种其他聪明的建议,以帮助用户找出如何以新的有趣的方式集成数据。然后,一旦他们有了想要用于集成数据的“配方”,将该配方放入可重复的数据管道就是留给用户的练习了。

这就是生产数据工程和集成发挥作用的地方。对于特殊分析,可以使用示例数据集。对于生产,您必须能够摄取整个数据集,这意味着您必须并行化数据的加载,以便它能够适合SLA窗口。对于特殊分析,您可以只加载一次数据;对于生产分析,当新数据进入系统时,您必须能够在持续的基础上处理数据的增量加载。这意味着您必须处理变更数据捕获和缓慢变化的维度。在Hadoop世界中,这些都是非同小可的技术问题,因为合并和同步新数据以及跟踪历史记录都不是Hadoop目前所能处理的。

对于即席分析,您不必担心您的数据管道可能如何与其他数据管道交互。谁会在意您是否碰巧将数据集从关系数据库加载到数据湖中,并且您碰巧做了几次呢?但是在生产环境中,如果您碰巧有五个数据管道,所有这些管道都将同一个表加载到数据湖中,那么您的操作环境最好足够聪明,能够意识到它将五次加载同一个表,或者只加载一次,或者知道只加载最近的更改。

对于自组织分析,您不必担心如果数据管道出现故障时会重新启动它。你只需手动重启它。对于生产,您的生产系统最好足够聪明,知道某件事情发生了故障,尝试重新启动它,并在第一时间通知正确的人员它发生了故障。

最后,当您进行特殊数据分析时,您不需要担心跟踪谁对分析配方进行了更改。通常情况下,一个数据科学家正在研究一个问题,一旦他们找到了配方,他们就会发布该配方并投入生产。但是,一旦切换到生产环境,您就想知道管道运行的频率,每次运行的时间以及谁对管道逻辑进行了更改(如果进行了任何更改)。在操作环境中,流程的治理成为一个大问题。

底线是,设计用于即席自助服务数据分析的工具包括这些工具与您想要考虑的可操作地大规模运行该环境的工具相同,反之亦然。它们是不同的问题,具有非常不同的特性集优先级。虽然它们有一些重叠之处,因为它们都允许您摄取和转换数据,但相似之处往往仅限于此。因此,请确保您考虑到您对这两种环境的需要和要求--因为这些要求是显著不同的。