数据湖
字数
345 字
阅读时间
2 分钟
一、概念
(一)核心原则
- 集中存储原始的、未经改变的全量数据,在提取数据时才进行转换
(二)存储数据类型
- 数据湖存储各种各样类型的数据,重点是非结构化和半结构化数据,通过统一视图提供开放访问
- 数据湖具有强大的元数据管理能力,保证所存储数据资源的语义一致性,这是进行大数据分析的基本前提
- 数据库存储的是结构化数据
(三)与数据仓库的差别
- 数据湖是与数据仓库相对的概念。数据仓库有两个局限:一是只可以回答预先设定的问题,二是数据已经被筛选包装好,无法看见其最初状态
- 图示说明:
(四)作用定位
- 数据湖定位于数据采集、汇聚和存储环节,是公用数据集和分析型应用的源头
- 狭义上数据湖仅是对应“存储”这个环节,广义数据湖则对应“入湖、存储、出湖”这三个环节
贡献者
freeway348