数据集市入门
http://tech.ddvip.com 2008年12月15日 社区交流
内容摘要:这篇文章中讨论了商业智能的基础,以及我们为何和如何建议构建数据集市解决方案。我们共享了从构建数据集市的经验中获得的关键教训,并且希望本文能帮助其他从事实现数据集市的人。
发布特定用户群体所需的信息,且无需受制于源系统的大量需求和操作性危机。
支持访问非易变(nonvolatile)的业务信息。(非易变的信息是以预定的时间间隔进行更新的,并且不受 OLTP 系统进行中的更新的影响。)
调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。
通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的(cleansed)数据。
为即席分析和预定义报表提供合理的查询响应时间(不同于 OLTP 系统中所需的调优需求)。
通过提供对于遗留系统和 OLTP 应用程序的选择来减少对这些应用程序的要求,以获得更多所需信息。
图 1. 商业智能
数据集市适用于商业智能世界中的哪些位置?
数据集市是向组织提交的商业智能总体计划中的一个部分。Gartner Group 提出“商业智能是将数据转换为信息,然后通过发现又将该信息转换为知识的过程”。商业智能的范围包括信息体系结构、访问和分析数据的方法、基础设施以及组织将数据变为智能的能力和过程(图 1)。信息体系结构存储致力于向组织传送信息的数据,其中包括元数据。元数据是有关于逻辑和物理模型以及数据字典等数据的信息。在该图中, information architecture中的数据与驻留在遗留系统和 OLTP 系统中的数据是分开的。
操作数据存储(Operational Data Store,ODS)集成了当前的而非历史的明细操作数据,以支持操作环境和立即做出的决策。不是所有组织都有 ODS,但是如果他们有的话,ODS 可被当作“记录系统”,这表示它是权威信息的来源。遗留系统和 OLTP 系统将实时地、每小时或每天填充 ODS。数据仓库是组织信息体系结构的组成部分,它包含了历史的、明细的和概要的集成信息来支持决策和填充数据集市。数据仓库中的数据是非易变的,这意味着将周期性地进行更新和刷新并且被用户群体所理解。 数据集市(Data marts)是为满足已定义的用户组或业务领域(Business Area)对于特定业务信息的需求而创建的。它们比数据仓库更小且更关注在数据中构建复杂的业务规则来支持功能强大的分析。
来源:ibm 作者:Nancy Padrick 责编:豆豆技术应用