数据仓库分层
数据仓库的分层设计是将数据按照不同的逻辑层次进行组织和划分,以提高数据处理效率、灵活性和管理便利性,支持复杂的数据分析和决策制定。
常见的数据仓库分层架构如下。
三层架构
数据获取层(ODS层)
功能:负责从各个业务系统中抽取数据,经过清洗、转换和加载(ETL)等过程,将数据转换为数据仓库所需的格式和结构。
存储内容:包括企业内部的数据库、文件系统以及外部数据源等。
数据存储层(DW层)
功能:负责存储清洗和转换后的数据,并提供高效的数据访问和查询功能。
存储内容:主要包括从各种数据源提取的原始数据,这些数据以原始形式保存,并进行初步清洗和处理。
数据应用层(APP层)
功能:根据用户需求展示和分析数据,支持企业的决策和业务需求。
存储内容:包括报表、数据可视化、OLAP分析等。
四层架构
ODS层(操作数据存储层)
功能:保留业务系统原始状态,完成数据初步清洗。
存储内容:包含所有原始数据的来源,如关系型数据库、非关系型数据库、文件、Web服务等。
DWD层(明细数据层)
功能:负责存储经过初步清洗和转换的明细数据,保持与ODS层相似的数据结构和粒度,但排除了空值、脏数据等异常。
存储内容:一般根据ODS层的数据加工生成。
DWS层(汇总数据层)
功能:基于DWD层或其他数据源的数据进行聚合和汇总操作,生成一系列用于业务分析的数据表。
存储内容:包含了经过计算、统计和汇总的数据,通常按业务主题或分析维度组织。
ADS层(应用数据层)
功能:存放个性化统计指标数据,根据CDM层与ODS层的加工生成。
存储内容:包括各种报表、分析模型、可视化图表等。
其他层
DIM层(维度表层)
功能:用于存储描述性数据,如产品、客户、时间等维度信息。
存储内容:描述和分类数据的表。
数据缓冲层(STG)
功能:主要负责收集和存储从业务系统流过来的增量数据。
存储内容:把数据从源系统导入到数据仓库中,结构基本上和源系统保持一致,方便后续ETL处理。