Skip to content

数据湖

字数
345 字
阅读时间
2 分钟

一、概念

(一)核心原则

  • 集中存储原始的、未经改变的全量数据,在提取数据时才进行转换

(二)存储数据类型

  • 数据湖存储各种各样类型的数据,重点是非结构化和半结构化数据,通过统一视图提供开放访问
  • 数据湖具有强大的元数据管理能力,保证所存储数据资源的语义一致性,这是进行大数据分析的基本前提
  • 数据库存储的是结构化数据

(三)与数据仓库的差别

  • 数据湖是与数据仓库相对的概念。数据仓库有两个局限:一是只可以回答预先设定的问题,二是数据已经被筛选包装好,无法看见其最初状态
  • 图示说明:

(四)作用定位

  • 数据湖定位于数据采集、汇聚和存储环节,是公用数据集和分析型应用的源头
  • 狭义上数据湖仅是对应“存储”这个环节,广义数据湖则对应“入湖、存储、出湖”这三个环节

贡献者

The avatar of contributor named as freeway348 freeway348

文件历史

撰写