构建下一代数据架构的主要挑战


今天的技术和软件进步允许我们处理和分析大量的数据。虽然大数据显然是一个热门话题,组织也在为此投入大量资金,但需要注意的是,除了考虑规模之外,我们还需要考虑所分析数据类型的多样性。数据多样性意味着数据集可以以多种格式和存储系统存储,每种格式和存储系统都有自己的特点。

将数据多样性考虑在内是一项困难的任务,但它提供了360度方法的好处—能够全面了解您的客户、提供商和运营情况。为了实现这种360度方法,我们需要实现下一代数据架构。在这样做的时候,主要的问题变成了:如何创建一个敏捷的数据平台来考虑数据的多样性和未来数据的可伸缩性?

当今前瞻性组织的答案越来越依赖于数据湖。数据湖是一个单一的存储库,它管理事务性数据库、操作存储和在事务性企业系统之外生成的数据,所有这些都在一个公共的存储库中。数据湖支持不同来源的数据,如文件、点击流、物联网传感器数据、社交网络数据和SaaS应用数据。

数据湖的一个核心原则是存储未经修改的原始数据。这实现了数据分析和探索的灵活性,并且还允许查询和算法基于历史和当前数据而不是单个时间点快照来发展。数据湖还通过避免信息孤岛和将数据集中到一个公共存储库中来提供好处。该存储库很可能分布在许多物理机器上,但将为最终用户提供透明的访问和底层分布式存储的统一视图。此外,数据不仅是分布式的,而且是复制的,因此可以确保访问、冗余和可用性。

数据湖存储所有类型的数据,包括结构化和非结构化数据,并通过整个企业的单一统一视图提供大众化的访问。通过这种方法,您可以在一个平台上支持许多不同的数据源和数据类型。数据湖可以加强组织的现有信息技术基础设施,与遗留应用程序集成,增强(甚至取代)企业数据仓库(EDW)环境,并为新应用程序提供支持,这些新应用程序可以利用当今不断增加的数据种类和数据量。

能够存储来自不同输入类型的数据是数据湖的一个重要特性,因为这允许您的数据源继续发展,而不会丢弃潜在的有价值的元数据或原始属性。各种不同的分析技术也可以用于对相同的输入数据执行,避免了在数据被聚合或转换后才进行处理所带来的限制。创建这个可以用不同算法查询的统一存储库,包括传统EDW环境范围之外的SQL替代方案,是数据湖的标志,也是任何大数据战略的基础。

为了实现数据湖的最大价值,它必须提供:

  • 确保数据质量和可靠性的能力,即确保数据湖适当地反映您的业务。

  • 易于访问,使用户能够更快地识别他们想要使用的数据。

要管理数据湖,关键是要有适当的流程来清理、保护和操作数据。数据治理和数据管理的这些概念将在本报告的后面进行探讨。

构建数据湖不是一个简单的过程,有必要决定摄取哪些数据,以及如何组织和分类这些数据。虽然这不是一个自动的过程,但是有一些工具和产品可以在企业范围内简化现代数据湖体系结构的创建和管理。这些工具允许接收不同类型的数据,包括流数据、结构化数据和非结构化数据。

它们还允许元数据的应用和编目,以便更好地理解您已经摄取或计划摄取的数据。所有这些都让您能够为敏捷数据湖平台奠定基础。

这是摘录自理解元数据:为可扩展的数据架构奠定基础作者:费德里科·卡斯塔涅多和斯科特·吉德利。要了解更多关于元数据和下一代架构的信息,请下载完整的电子书here