大数据中心建设的基本原则
公共处理逻辑下沉及单一——越是底层公用的处理逻辑越应该在数据调度依赖的底层进行封装与实现,不要让公用的处理逻辑暴露给应用层实现,不要让公共逻辑多处同时存在。
成本与性能平衡——适当的数据冗余可换取查询和刷新性能,不宜过度冗余与数据复贴。
数据可回滚——处理逻辑不变,在不同时间多次运行数据结果确定不变。
大数据中心建设——模型设计
模型设计指导理论:
模型层次:把表数据模型分为三层:操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS),其中公共维度模型层包括明细数据层(DWD)和汇总数据层(DWS)。
操作数据层(ODS):把操作系统数据几乎无处理地存放在数据仓库系统中。
同步:结构化数据增量或全量同步。
结构化:非结构化(日志)结构化处理并存储。
累积历史、清洗:根据数据业务需求及稽核和审计要求保存历史数据、清洗数据。
大数据中心建设——公共维度模型层(CDM)
存放明细事实数据、维表数据及公共指标汇总数据,其中明细事实数据、维表数据一般根据ODS层数据加工生成;公共指标汇总数据一般根据维表数据和明细事实数据加工生成。
CDM层又细分为DWD层和DWS层,分别是明细数据层和汇总数据层,采用维度模型方法作为理论基础,更多地采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联,运动大数据中心建设费用,提高明细数据表的易用性;同时在汇总数据层,加强指标的维度退化,步态大数据中心建设费用,采取更多的宽表化手段构建公共指标数据层,运动大数据中心建设费用,提升公共指标的复用性,减少重复加工。其主要功能如下。
组合相关和相似数据:采用明细宽表,复用关联计算,临沂大数据中心建设费用,减少数据扫描。
公共指标统一加工:基于OneData体系构建命名规范、口径一致和算法统一的统计指标,为上层数据产品、应用和服务提供公共指标;建立逻辑汇总宽表。
建立一致性维度:建立一致的数据分析维表,降低数据计算口径、算法不统一的风险。