初识大数据

BraumAce2024年12月10日约 1862 字大约 6 分钟

1. 大数据概述

大数据（Big Data）：是指规模巨大、类型复杂多样，在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，也可以理解为是涉及到数据的采集、存储、处理、分析和可视化等多个方面的复杂系统。

通常包括以下四个特征（4V）：

基于大数据的发展，也衍生出了很多大数据处理技术。

大数据技术：是通过获取、存储、分析，从大容量数据中挖掘价值的一种全新的技术架构。

数据库主要用于「事务处理」，特别强调每秒能干多少事儿：QPS（每秒查询数）、TPS（每秒事务数）、IOPS（每秒读写数）等等。

而当业务发展到一定规模后，希望从大量的应用系统、业务数据中，进行关联分析，帮助业务更好地发展。但是数据库擅长事务性工作，不擅长分析性工作，于是就产生了「数据仓库」。

数据仓库相当于一个集成化数据管理的平台，从多个数据源抽取有价值的数据，在仓库内转换和流动，并提供给 BI 等分析工具进行处理。

因为分析型业务需要大量的 “读” 操作，所以数据仓库通过 “Denormalized” 化的方式优化表结构，减少表间联接，牺牲空间来换取读性能。并使用列式存储优化，来进一步提高查询速度、降低开销。

企业在持续发展过程中，数据也在不断堆积，重要的关键数据可以存储在数据库、数据仓库中。但是企业中还存在大量的与业务没有直接关联的辅助型数据，希望都能够完整保存下来，这时候就需要「数据湖」来做。

数据湖，本质上是由 “数据存储架构 + 数据处理工具” 组成的解决方案，而不是某个单一产品。

数据存储架构，要有足够的扩展性和可靠性，要满足企业能把所有原始数据都 “囤” 起来，存得下、存得久。
数据处理工具，分为两大类：
1. 治理工具，解决的问题是如何把数据 “搬到” 湖里，包括定义数据源、制定数据访问策略和安全策略，并移动数据、编制数据目录等等。
2. 分析工具，解决的问题是如何对数据进行分析、挖掘和利用，包括对数据进行查询，应用数据解决实际问题等。

数据库 VS 数据仓库

数据湖起步成本很低，但随着数据体量增大，TCO 成本会加速飙升；数仓则恰恰相反，前期建设开支很大。一个后期成本高，一个前期成本高，对于既想修湖、又想建仓的用户来说，难以抉择。

所以，根据两者的特点，都是拿数据为业务服务，数据湖和数仓作为两大“数据集散地”，人们尝试着将彼此整合一下，让数据流动起来，少点重复建设。

于是，为推动数仓和数据湖的打通融合，诞生了「Lake House」，即湖仓一体。

Lake House 架构最重要的一点，是实现 “湖里” 和 “仓里” 的数据/元数据能够无缝打通，并且 “自由” 流动。湖里的 “新鲜” 数据可以流到仓里，甚至可以直接被数仓使用，而仓里的 “不新鲜” 数据，也可以流到湖里，低成本长久保存，供未来的数据挖掘使用。

通常需要满足以下要求：

不仅如此，把数据湖和数据仓库集成起来只是第一步，还要把湖、仓以及所有其他数据处理服务组成统一且连续的整体，即「智能湖仓」。

智能湖仓并非单一产品，它描述的是一种架构。这套架构，以数据湖为中心，把数据湖作为中央存储库，再围绕数据湖建立专用 “数据服务环”，环上的服务包括了数仓、机器学习、大数据处理、日志分析，甚至 RDS 和 NoSQL 服务等等。

大家 “环湖而饲”，既可以直接操纵湖内数据，也可以从湖中摄取数据，还可以向湖中回注数据，同时环湖的服务彼此之间也可以轻松交换数据。

任何热门的数据处理服务，都在湖边建好了，任何对口的数据都能召之即来、挥之则去。依靠这种无缝集成和数据移动机制，用户就能从容地用对的工具从对的数据中，挖出干货！

从数据获取到数据应用到完整流程上，AWS 官方给出了智能湖仓的参考架构：