(1)生产数据
生产数据是指能够从企业当前运作的信息系统应用程序中收集到、并保存在基础数据库中的信息。这些基础数据库可以出现在企业的各部门,例如实时数据库、管理数据库、工程数据库等。从技术角度看,它们可以是关系数据库、非关系数据库、基于文件的数据库等。
(2)历史数据
历史数据是脱机或档案数据,不必支持当前运作的应用程序,但是往往具备综合数据的性质,对于趋势分析有重大价值。必须用适当的应用程序把它们传入数据仓库。这类数据对于数据挖掘也是有用的。
(3)办公数据
办公数据不存储在当前运作的数据库中,也不能通过应用程序提取,但是它们对于跨部门分析是很有用的,一般可以由专门的人员,按照社会信息的提取方法把它们转换到数据仓库中。
(4)社会信息
社会信息不受企业控制、不为企业占有或操作。它们可能来自企业人员的社会活动,更多的时候来自因特网。第2章已介绍了它们的提取方法。
(5)数据源元数据
元数据是关于数据源的明确信息,包括从数据源中所抽取数据的名称、数据内容(域)的定义、创建日期、数据的来源或源点。对于办公数据和社会信息,元数据还可以包括概要描述、存储定位、文档数据的存取和控制参数。
6.4.1.3综合信息单元
综合信息的含义已在第6.1.3节介绍。在数据仓库中,综合信息的内容更丰富,管理更标准化。
(1)数据抽取
数据抽取的任务是从基础数据中选择构造综合信息的数据,包括标准化、匹配、筛选,为从所选数据源中抽取数据的原始信息打上时间戳。元数据处理把元数据映射为标准数据名称和定义,包括被抽取数据的时间戳、来源、已经增加的新域。
元数据可以再创建和捕获新的元数据。
(2)数据重构
数据重构部分负责构造综合信息数据,以满足企业对于辅助决策的需求。它支持以下几个方面的工作:
a.归纳:集成多个系统中不同类型的数据,用以创建新数据;
b.分配:按照时间顺序分割数据,以便建立模型和分析;
c.演绎:对综合信息进行预测,并推导企业需要的其他信息;
d.翻译:对不同来源数据的翻译和格式化;
e.元数据创建:对已有数据的转移以及把它们再映射回原始数据源,以便数据不断创建和更新。
6.4.1.4模型库管理单元
模型库管理单元模块根据用户需求和数据仓库的条件创建模型库。构件分为4类:数据预处理、建立模型、模型调用、元模型管理。
(1)数据预处理
数据预处理包括对基础数据的过滤、匹配和选择。
(2)建立模型
根据基础数据和综合数据建立模型,包括用归纳法建立的逻辑模型和用参数估计方法建立的统计模型,模型建立后要进行模型评估。
(3)模型调用
支持对于模型的调用,主要包括预测和推理。
(4)元模型管理
元模型是构造模型的最小单元,理论上认为复杂模型都可以由元模型构成。
元模型由原子公式和子程序两部分组成。元模型管理建立原子公式和子程序的关联,同时还对原子公式做标记、分类、统计、描述等。
6.4.1.5存取和使用单元
存取和使用单元由存取和检索、分析和报表两部分组成。该模块为整个数据仓库的实现提供决算性的和有价值的内容。
(1)存取和检索
存取和检索模块可以访问模型库,也可以越过模型库直接访问数据库。该模块负责把已经检索的数据转换成多维视点或存入多维数据库中,以支持后期分析。
数据库和模型库中的数据可以“卸载”为局部存储,用于局部分析、数据挖掘和报表。查询既可以访问少量数据,也可以访问大量数据,其操作主要依靠对元数据的存取和浏览。元数据的浏览和导航为用户提供如下帮助:
a.了解数据或模型的内容(名称、描述、正文、版本、来源等);
b.记录数据从数据抽取直到存入数据库或模型库间的转移过程;
c.确定数据的定位;
d.验证数据的可靠性;
e.指出如何存取和使用数据。
(2)分析和报表
分析和报表构件是一组从数据库和模型库获取数据的工具或应用程序族,其中包括报表工具、分析和决策支持工具、业务建模与分析处理工具、数据挖掘工具等,还包括用于了解和报告数据库/模型库内容的元数据导航工具。
6.4.1.6技术平台
技术平台由数据管理层、元数据管理层和数据传输层组成。
(1)数据管理层
数据管理层主要完成数据仓库的数据抽取、加载、更新、安全、归档、恢复等任务。
从数据仓库的观点看,数据管理层主要完成以下功能:
a.从数据源挑选数据,为过滤、重构、存储做准备;
b.在新的或者当前的数据源中按照需求追踪和充实新数据;
c.捕获运作数据源中的变化,然后更新数据仓库。
数据管理层对安全性、存取权限、归档与恢复、数据净化等活动,是按照标准的数据管理策略、规程进行调度和操作的。随着数据仓库的规模不断扩大,出现了一些新的问题,例如数据仓库的大小影响多级索引的紧凑管理、数据和索引的物理存放、多媒体背景的快速恢复等。该层还管理查询中的并行处理问题和并行处理器的使用。
(2)元数据管理层
数据库和模型库都建立在数据(或元数据)基础上,元数据渗透到数据仓库的各种活动中。数据源的性质由所获取数据的定义来刻画。增加时间戳需要有与元数据相关的附加时间信息,增加来源戳也就创建了新的元数据,归纳活动则要求增加新的列来存放归纳的信息。
元数据管理层还存储和管理数据仓库/模型库的数据逻辑模式及物理模式,以及技术和业务的词汇表。大型数据库在多级索引、数据压缩、复合键和数据版本等方面具有一定的复杂性,对它们的描述和管理也在元数据管理层进行。元数据管理层主要控制如下元数据:
a.数据仓库的标准数据定义(包括技术定义和业务描述);
b.在过滤与重构过程中捕获和创建的元数据;
c.粒度、分割、主题域、聚类和归纳的元数据;
d.描述预定义的结构化查询和报表的元数据;
e.描述能够改善数据存取和检索性能的索引及轮廓的元数据;
f.描述刷新、更新和复制周期的时限及规则的元数据。
(3)数据传输层
数据仓库与外界的数据交换,以及数据仓库内部不同结构块之间的数据传输的任务,都由传输层提供的构件来完成。该层包含刷新和复制技术、数据传输、传送网络以及中间件等项服务,它也为传输请求提供安全保证。
传输层在硬件与软件平台之间搭建了必要的通信桥梁,这些桥梁又被不同的构件分割成一个个小平台。
传输层的数据传输和传送网络包含以下几种系统:
a.网络协议,例如TCP/IP、SNA/APPN、IPX等;
b.网络管理软件,例如Open View、NetView、Sun Net Manager等;
c.网络操作系统;
d.网络类型,例如以太网、令牌网、FDDI、ATM等。
客户/服务器代理和中间件包含以下几种:
a.数据库网关,例如EDA/SQL、Enterprise Connect等;
b.面向消息的中间件,例如MQSeries;
c.组件对象管理,例如COM、DCOM、ORBPlus、EJB等。
6.4.1.7基础结构层
基础结构层由工作流程管理、存储系统和系统管理等3部分组成。
(1)工作流程管理
工作流程管理构件主要支持各项任务的集成和管理,以协调各种工具、应用程序和操作有条不紊地执行,正确完成对数据库和模型库的数据抽取、刷新、复制、更新、聚类、归纳,以及其他的维护和系统管理的任务。因为对数据库和模型库进行维护及操作的许多程序都是自动进行的,而且提供了预定义的报表和查询结果,所以大大提高了系统的效率和生产能力。
(2)存储系统
存储系统构件为数据源、数据库、模型库的数据目录提供了数据库和文件管理服务器,为存取和使用模块提供了多维及本地存储。
(3)系统管理
系统管理构件为系统维护和使用者提供诸如执行、管理、终止工具、应用程序等功能。同时,还支持对基本操作环境的维护,主要包括:配置管理程序,存储管理程序,安全性管理程序,软件分布管理程序,特许证管理程序,性能监控程序,容量分析程序。
6.4.2数据挖掘
数据仓库使企业拥有大量信息和对信息的直接利用,如果能够进一步深入下去,从大量的数据中发现新的、更重要的信息,很可能使决策更为有效,这个过程称为数据挖掘。很多人认为数据挖掘是决策支持工具集的重要组成部分。数据挖掘可以帮助用户处理大量的现存数据,以期发现一些“意外的关系”,例如产品与顾客的关系或者产品与顾客购买模式的关系等,其目的是要发现“战略性的和富有竞争性的问题”,以便增加市场份额和利润。
在数据挖掘过程中有以下3个重要因素。
(1)用户
数据挖掘最重要的用户是信息主管、统计员和系统使用者。从数据挖掘中最后得益的用户是企业决策者,他们最关心那些能够带来成功的商业因素,这些因素基于全体顾客数据,利用这些知识可以调整产品、价格和市场策略,从而增加成功的机会。
在完成了企业级信息化工程后,决策者就可以利用信息查询和分析处理工具来了解并且评价业务状况。信息查询使用比较简单,但是对分析员(信息主管)的依赖性比较强。分析员可以访问特定的问题,并且利用数据来检验结果和做出推断。在线分析处理(OLAP)对分析员的要求比较低,但是数据应该按照特定的方式组织(多维数据库),或者按照特定的方式访问(多维视图)。有时也可以把综合信息查询和OLAP技术结合起来,以了解顾客行为,或生成市场分析报告,但是应用这些技术处理时,都需要分析员的支持。这种处理广义上也称为数据挖掘。有些地方,数据挖掘被定义为决策支持的查找模式,它由数据驱动而不是由用户驱动。