蓬天数据仓库系统开发升级。

蓬天数据仓库系统

数据仓库的概念

数据仓库概念始于本世纪80年代中期,首次出现是在号称“数据仓库之父”William H.Inmon的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。

在技术上人们习惯于从工作过程等方面来分析,并按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。

⑴数据的抽取:数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。

⑵存储和管理:数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。

⑶数据的表现:数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。

数据仓库并非是一个仅仅存储数据的简单信息库,因为这实际上与传统数据库没有两样。数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”。如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。

结构与应用

●建立通用数据仓库概念模型

按照国际标准的数据仓库概念模型和实施模型,建立全局通用的数据仓库概念模型,以指导未来数据仓库系统的建设、扩展和持续的发展。在数据仓库系统技术架构的设计中,引入了业务智能生命周期(BIL:Business Intelligence LifeCycle)的概念模型。

BIL模型基本可以表达为一个中心,四个环节,四个环节之间紧密衔接。一个中心就是以数据仓库为核心,四个环节就是围绕数据仓库运行的业务系统、数据集成、数据应用、应用反馈等具体系统,从数据的角度来讲,分为数据仓库的数据提供者,数据仓库数据的消费者;从业务应用的角度讲,分为交互系统、决策支持系统,决策支持系统利用交互系统采集的信息做出决策、制定规则,交互系统利用决策支持系统反馈的规则,优化流程,提供更加有效的服务和管理。

●建立统一数据中心平台

在BIL模型中,企业级的数据仓库(EDW)是整个模型的核心,在具体的实现应用中,EDW扮演着一个数据存储的最终位置以及数据应用的唯一提供者的角色,对具体税务业务应用来说,数据仓库应该成为一个统一的数据中心,在整个机构中提供共享统一的数据存储模型,为各级管理及业务人员提供一致的数据视图。通过数据仓库对数据的集成处理,从而实现应用数据的一致性、可靠性,实现数据标准的统一,减少在针对数据的应用中,由于多口径数据而造成的歧义,保证决策的准确性和科学性。在核心的企业级数据仓库基础上,可以根据不同的主题应用,建立相关的数据集市,为不同的分析利用提供对应的数据集合,从而提升访问效率。建立统一的数据中心平台,为未来其他业务系统的数据融合做准备。

●建立统一数据仓库实施过程

基于BIL模型,将其中的四个环节过程化,用以指导未来数据仓库系统的扩展。其中的四个环节是一个相对的概念,具体指围绕企业数据仓库(EDW)的构建、针对数据仓库应用的交互系统、数据集成(ETL)、数据应用的具体系统或者技术实现。各个环节之间不是孤立存在的,而是互相关联,互为依托的,各个环节围绕数据仓库构成一个大的闭环应用,覆盖了业务应用的各个层面。

建立统一的数据仓库技术架构

遵循上面的BIL模型,在具体的技术实现上,按照系统的层次进行重新组织,构建出系统的总体逻辑技术参考框架如下面示意图。

按照系统所涵盖的内容,根据不同功能作用,将系统划分为数据层、应用层、展示层三个层次。每个层级内包含面向本层次的功能及实现方法。

数据层—数据层主要包括数据源、数据的加工处理(ETL功能)、数据中转区、数据仓库等部分,主要完成对数据的管理。数据是从业务系统到数据仓库的流动,数据层是整个数据仓库系统的基础。以下是数据加工处理的举例:

应用层—应用层主要包括围绕数据仓库数据,根据不同的业务需求,相应的应用功能部分,主要完成数据的利用。应用手段包括查询、报表、分析、挖掘等,应用层是数据仓库系统的核心。

展示层—展示层主要完成对应用层结果的发布,是各类应用的最终交付平台。展示层通过不同的实现架构,不同的表现形式,为客户提供多样化的信息传递。展示层是数据仓库系统的统一应用门户。

这里的层次划分只是逻辑层面的划分,在具体的物理实现上,层次之间并没有明显的界限,但是在数据的流向上基本上按照数据层à应用层à展示层的顺序表现。

IBM、Oracle等厂商都提出了自己的数据仓库结构,但严格说来,任何一个数据仓库结构都是从一个基本框架发展而来,实现时再根据分析处理的需要具体增加一些部件。

为了能够将已有的数据源提取出来,并组织成可用于决策分析所需的综合数据的形式,一个数据仓库的基本体系结构中应有以下几个基本组成部分:

●数据源 指为数据仓库提供最底层数据的运作数据库系统及外部数据。

●监视器 负责感知数据源发生的变化,并按数据仓库的需求提取数据。

●集成器 将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中。

●数据仓库 存贮已经按企业级视图转换的数据,供分析处理用。根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。

●客户应用 供用户对数据仓库中的数据进行访问查询,并以直观的方表示分析结果的工具。

应用行业

新世纪客户关系在各种交易中所起到的作用越来越重要,在市场经济这个天平上的法码也是越来越沉重了。从而使得在目前竞争激烈的知识经济环境和电子商务经济模式下,重要的信息往往可以决定企业的成败,甚至决定企业的生死存亡。因此,很多行业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋。如我们平时所说的民航订票系统、银行ATM系统、证券交易系统、期货交易系统、铁路售票系统、移动通信用户信息管理与服务系统等就是建立在大型数据库基础之上的数据仓库。

●证券

证券公司利用客户行为分析系统将所有客户的操作记录进行归类和整理,并结合行情走势、上市公司资料、宏观微观经济数据等,在掌握大量数据的情况下,对客户的行为和市场各因素的关联、客户的操作习惯、盈亏情况、公司的利润分布等进行统计和分析,从而获得以往一直想获得但却无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息。证券商在获得这些信息后,就有能力为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务。

●银行

随着社会主义市场经济改革的深化,传统的计划金融模式逐渐瓦解,市场金融模式逐渐形成。在这个变革过程中,由于体制、市场、企业、个体等经济要素变化、发展的不平衡性,带来了银行对各种金融变量控制的随机性和模糊性。如何防范银行的经营风险、实现科学管理以及进行决策,成为当今金融研究的一个重要课题。利用数据仓库的强大功能,银行可以建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分析奠定基础。通过先进的信息加工、分析、处理软件,加上银行的经营决策、信贷营销人员的个人经验,对每一个投资方向、每一笔贷款作出科学的判断,可以有效控制投资、信贷风险。

●税务

增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干扰,是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的,要在其间找到最适当的平衡点非常困难。通过应用数据仓库技术,对税收部门的内部和外部数据进行综合分析处理,可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。数据仓库技术之所以能够查出漏税者,其基本思想是通过对大量数据资料的分析来掌握各行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并与其实际纳税金额进行对比,从而查出可能的偷漏税者。澳大利亚政府税务部门将数据仓库技术用于支持税收业务,系统经过3年的运行,投入回报率达到1∶15。

●保险

随着商业保险公司业务系统日趋完善,数据交换和处理中心的建立,如何满足保险行业日益增长的各种查询、统计、报表以及分析的需求,如何提高防范和化解经营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至如何利用这些数据来设计保险企业的发展宏图以在激烈的竞争中赢得先机,是保险决策支持系统需要解决的问题,也是目前保险企业在信息技术应用上的首要难题。

数据仓库的实施

数据仓库是一个解决方案,而不是一个可以买到的产品。不同企业会有不同的数据仓库,企业人员往往不懂如何利用数据仓库,不能发挥其决策支持的作用,而数据仓库公司人员又不懂业务,不知道建立哪些决策主题,从数据源中抽取哪些数据,因此需要双方互相沟通,共同协商开发数据仓库。

开发数据仓库流程包括以下几步:

●启动工程 建立开发数据仓库工程的目标及制定工程计划。计划包括数据范围、提供者、技术设备、资源、技能、组员培训、责任、方式方法、工程跟踪及详细工程调度。

●建立技术环境 选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信、开发工具、终端访问工具及建立服务水平目标(可用性、装载、维护及查询性能)等。

●确定主题进行仓库结构设计 因为数据仓库是面向决策支持的,它具有数据量大但更新不频繁等特点,所以必须对数据仓库进行精心设计,才能满足数据量快速增加而查询性能并不下降的要求。

●数据仓库的物理库设计 基于用户的需求,着眼于某个主题,开发数据仓库中数据的物理存储结构。

●数据抽取、精练、分布 根据数据仓库的设计,实现从源数据抽取数据、清理数据、综合数据和装载数据。

●对数据仓库的OLAP访问建立数据仓库的目的是要为决策支持服务,所以需要各种能对数据仓库进行访问分析的工具集,包括优化查询工具、统计分析工具、C/S工具及数据挖掘工具,通过分析工具实现决策支持需要。

●数据仓库的管理 数据仓库必须象其他系统一样进行管理,使数据仓库正常运行。

数据仓库支持

●任何数据源

搜集在数据仓库中的数据来源众多,包括内部存储的业务数据和外部的数据。在传统上,数据仓库中的大多数数据来自内部业务系统,如业务系统或各客户信息系统等方面的数据。然而外部来源的数据也越来越普通,并且将会提供比内部来源更多的数据。上述两种数据来源融合在一个单一的存储系统中,并且加以管理,从而为最终用户提供对这两种数据源的无缝访问。

●任何数据

考虑到现在需访问的数据仓库的用户范围,系统设计者面临着纷繁各异的需求。对数据的访问必须快捷,直观和直接。大多数用户需要直接查询和深入的能力,而另外一些需要更复杂的分析能力。数据仓库能够处理新型格式的数据,如声音,视像,文字和空间数据。而且,日益增加的用户提出大量历史性需求,往往导致超大规模数据库的出现。

●任何访问需求

我们把数据仓库的用户分为两类:第一类是对数据进行随意查询和报告,深入和旋转,这类用户需要一种直接和直观的工具,帮助他们轻松地访问数据,从而作出明智的商业决策。另外一类用户是企业的高级管理者和决策者,他们需要进行更复杂更高级更完全的分析(建摸,预测和假设分析等),以支持制定商业策略。上述两类用户体现了整个企业对于信息访问的需求。今天的数据仓库已经突破了管理人员和分析人员的范围,现在各类企业人员都在使用数据仓库,实施数据仓库,变得越来越重要。

实施效果

数据仓库是面向主题的、集成的、保存历史数据、用于业务分析和决策制定过程的数据集合。数据仓库系统就是典型的分析系统,它与业务系统既有区别,又相互依赖、相互优化。首先,业务系统为数据仓库提供数据,而数据仓库本身不产生新数据;其次,数据仓库把自身的分析结果可以反馈给业务系统,实现业务优化和系统监控。

相关新闻

联系我们

联系我们

QQ:951076433

在线咨询:点击这里给我发消息

邮件:951076433@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

分享本页
返回顶部