‘壹’ 数据仓库数据建模的几种思路
数据仓库数据建模的几种思路主要分为一下几种
1. 星型模式
星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星形模式的维度建模由一个事实表和一组维表成,且具有以下特点:a. 维表只和事实表关联,维表之间没有关联;b. 每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键;c. 以事实表为核心,维表围绕核心呈星形分布;
星座模型
‘贰’ 如何建设工业大数据可视化系统
工业数据可视化决策系统可以通过虚拟现实、数据仪表板等多种显示手段,实现与工业企业原有自动控制系统的结合。为大数据时代的工业生产监控、设备监控和虚拟制造应用提供最佳的可视化解决方案。
以万博思图设计可视化大屏幕系统为例,平台可连接分布在世界各地的40多万台设备,实时采集运行数据,远程管理设备组的运行状态。实现准确的产品分析、预测和运营支持,同时借助工业大数据实现传统制造向智能制造的转变和升级。可视化大屏幕分为四个场景:智能服务、共享经济、模式创新和研发辅助。采集设备转速、针数、电压及各种实时生产能力的运行数据。充分发挥数据仪表板在各种图表中合理分组的优点,实现仪表数据的快速状态切换,满足不同场景监控的需要。通过构建工业可视化指挥决策平台,可以充分整合生产、维修等部门的信息资源,有效集成智能分析功能,实现对“人”和“设备”的综合监控。协助经理在生产活动中实现事件的预警、指挥和调度,事件发生后的分析和评估。
多维数据组合,工业设备实时监控.。
为了满足工业企业对设备生产的全面控制,该平台通过接入所有生产设备终端信息系统,全面显示设备实时运行数据,帮助管理人员随时了解设备状态。通过对各部件的实时数据采集和试验数据的比较,对机组各部件的剩余寿命进行预测和可视化,有助于判断生产设备的更换时间,提高企业的生产效率。同时,该平台还可以自动对数据进行深度关联,如实时监控设备能力、收益、趋势等综合数据,方便整体分析,找出生产中难以单凭数据发现的隐患。及时向相关部门下达决策指示。
工业互联的应用,设备预警管理的可视化。
通过对设备状态数据的实时采集,为生产提供设备能力数据;同时通过建立数据健康管理文件(获取设备状态实时数据,建立数据健康管理文件),并根据积累的设备运行数据建立故障预测模型,进行预测维修,减少工程师的响应时间,提高一次性维修率,最大限度地减少设备的计划外停机时间。
智能分析,模式创新可视化。
系统通过梳理大量数据,可视化地显示重要设备的详细动态曲线、统计图,从而分析生产设备的适用性、合理性和效率。同时,通过工业设备的在线监测数据,提供关键决策。
‘叁’ 谁能给我解释一下“数据库”究竟是干什么的怎么建立数据库呢
数据库是把一定的数据按一定的逻辑关系存储起来的文件集合,狭义的数据库仅仅指存储数据的文件,广义的数据库还包括建立、管理数据文件的软件如foxpro,sqlserver.
一个构建得比较完善数据库的作用是难以用语言表达的,比如简单点的全校师生的自然状况,一个商店所有商品的货源、进价、数量、进货日期、采购员……,这都是很简单的数据库,复杂点的是一个大型网络游戏所有的成员的账号密码或是三峡工程所有参加人员和工程车辆的统计表,一个国家工业企业设备能力……建好的数据库对数据进行统计、查询、计算等非常方便快速。
至于怎么学数据库,不是三五天或三五个星期能学明白的。你可以用三天时间学会怎么做一个简单的图书馆查询系统,你可能用了三年还搞不定SQlserver的索引和指针。如果只是做图书馆查询这种,随便找本傻瓜书就行,这东西真想学好,先看萨师煊的《数据库原理》吧,要有点高等数学基础。
‘肆’ 什么是数据仓库
1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
‘伍’ 请问数据仓库都用什么建立
1、首先你得搞清楚建设数仓的目的是什么
是偏向于整合各系统数据,为数据分析决策服务,还是偏向于快速的完成分析决策需求?
如果是前者,那么在数据仓库建模的时候一般会选择ER建模方法;
如果是后者,一般会选择维度建模方法。
ER建模:即实体关系建模,由数据仓库之父BIll Inmon提出,核心思想是从全企业的高度去设计三范式模型,用实体关系描述企业服务。主张的是自上而下的架构,将不同的OLTP数据集中到面向主题的数据仓库中。
维度建模:由Kimball提出,核心思想是从分析决策的需求出发构建模型。这种模型由事实表和维表组成,即星型模型和雪花模型。Kimball倡导自下而上的架构,可以针对独立部门建立数据集市,再递增的构建,汇总成数据仓库。
2、其次你得进行深入的业务调研和数据调研
业务调研:深入的业务调研能使你更加明确数仓建设的目的;同时也利于后续的建模设计,随着调研的开展,如何将实体业务抽象为数仓模型会更加明朗。
数据调研:各部门或各科室的数据现状了解,包括数据分类、数据存储方式、数据量、具体的数据内容等等。这对后续的主数据串联或者维度一致性处理等等都是必须的基础。
3、然后是数据仓库工具选型
传统型数据仓库:一般会选择第三方厂家的数据库和配套ETL工具。因为有第三方支持,相对有保障;但缺点也很明显,受约束以及成本较高。
NoSQL型数据仓库:一般是基于hadoop生态的数据仓库。hadoop生态已经非常强大,可以找到各种开源组件去支持数据仓库。缺点是需要招聘专门人士去摸索,并且相对会存在一些未知隐患。
4、最后是设计与实施
设计:包括数据架构中的数据层次划分以及具体的模型设计;也包括程序架构中的数据质量管理、元数据管理、调度管理等;
实施:规范化的项目管理实施,但同时也需记住一点,数据仓库不是一个项目,它是一个过程。
‘陆’ 什么是数据仓库
数据库是一个装数据(信息的原材料)的地方。 数据仓库是一种系统,这种系统也是用数据库装东西。(这有点没说清楚:个人理解数据库和数据仓库当然都是装数据的地方,关键的区别是装的什么样的数据,数据库装的原始数据,没经过任何加工;而数据仓库是为了满足分析需要,对源数据进行了Transform过程,具体是怎样一个处理过程,可以从Bill Inmon的仓库定义四个特性进行理解。)数据仓库系统(用数据库装东西)与其他基础业务系统(例如财务系统、销售系统、人力资源系统等,也是用数据库装东西)的区别是: 基础业务系统的特点是各管各的,例如财务系统生产了白菜,那么用一个数据库来装,人力资源系统生产了猪肉,再用一个数据库来装。我要做一道菜,需要分别到各个数据库去取,比较麻烦(现实的情况是大部分时候让种菜的农民伯伯送过来,但送过来的东西不一定是我想要的,而且不同的时候我想要不同的东西,经常会被农民伯伯骂,弄得双方都不开心)。另外一方面,各个数据库中放的是一些比较原始的东西,我要拿过来做菜,还需要经过很麻烦的清洗过程,一不小心里面可能就藏着一条大青虫。那么,数据仓库系统就是建立一个大的超市,将各地农民伯伯出产的东西收集过来,清洗干净,分门别类地放好。这样,你要哪种菜的时候,直接从超市里面拿就可以了。
数据仓库的特点是:
(1)数据仓库是面向主题的.
(2)数据仓库是集成的
(3)数据仓库具有时间相关性.
(4)数据仓库的数据是相对稳定的.
数据仓库可以说是决策支持系统(个人不同意这个观点,决策支持系统(DDS)是在管理信息系统的基础上发展起来的,在数据仓库、OLAP技术和数据挖掘工具出现以前,就已经有DSS了,但其在实际应用开发过程中暴露出许多问题,DW为克服传统DDS存在的问题提供了技术上的支持,基于DW上的DSS效果自然有很大提升),能帮助老板了解企业的整体全貌,看到数据仓库提供的经过整理统计归纳的数据后老板凭自己的管理经验可以发现企业的问题或困难或成功因素在哪一方面,然后可以不断的追溯数据,直到确定到最具体的细节上,这样能够不断提升老板或管理层的管理水平,不断改善企业的管理。我们知道的最好的一个例子就是美国某大型超市啤酒和尿布的故事。 沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用商业智能(Business Intelligence,简称BI)技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性,每次购买的时间均在周末。沃尔玛在对相关数据分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种商品的销量都有了显着增加。 数据库是数据仓库的基础。数据仓库实际上也是由数据库的很多表组成的(这句话明显不成立,数据仓库里表分为事实表和维表,这和数据库里的表还是有本质区别的,组织方式完全不一样,一个是面向主题,一个是面向业务的)。需要把存放大量操作性业务数据的数据库经过筛选、抽取、归纳、统计、转换到一个新的数据库中。然后再进行数据展现。老板关注的是数据展现的结果。
‘柒’ 数据仓库是做什么的
目前,数据仓库一词尚没有一个统一的定义,着名的数据仓库专家W.H.Inmon在其着作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
根据数据仓库概念的含义,数据仓库拥有以下四个特点:
1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。
数据仓库系统体系结构
·数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;
·数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
·OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。
·前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
‘捌’ 数据仓库的实现方式
数据仓库是一个过程而不是一个项目。
数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
‘玖’ 企业如何更好的搭建数据仓库
0 引 言
随着计算机应用的深入,大量数据存储在计算机中,信息的存储、管理、使用和维护显得越来越重要,而传统的数据库管理系统很难满足其要求。为了解决大数据量、异构数据集成以及访问数据的响应速度问题,采用数据仓库技术,为最终用户处理所需的决策信息提供有效方法。
1 数据仓库
数据仓库是为管理人员进行决策提供支持的一种面向主题的、集成的、非易失的并随时间而变化的数据集合。数据仓库是一种作为决策支持系统和联机分析应用数据源的结构化数据环境。
从目前数据仓库的发展来讲,数据可以存放于不同类型的数据库中,数据仓库是将异种数据源在单个站点以统一的模型组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成、联机分析处理(OLAP)和数据挖掘(DM)。OLAP是多维查询和分析工具,支持决策者围绕决策主题对数据进行多角度、多层次的分析。OLAP侧重于交互性、快速的响应速度及提供数据的多维视图,而DM则注重自动发现隐藏在数据中的模式和有用信息。OLAP的分析结果可以给DM提供分析信息,作为挖掘的依据;DM可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。OLAP是联机分析处理,DM是通过对数据库、数据仓库中的数据进行分析而获得知识的方法和技术,即通过建立模型来发现隐藏在组织机构数据库中的模式和关系。这两者结合起来可满足企业对数据整理和信息提取的要求,帮助企业高层做出决策。在欧美发达国家,以数据仓库为基础的在线分析处理和数据挖掘应用,首先在金融、保险、证券、电信等传统数据密集型行业取得成功。IBM、oracle、Teradata、Microsoft、Netezza和SAS等有实力的公司相继推出了数据仓库解决方案。
近几年开始流行“分布式数据仓库”,是在多个物理位置应用全局逻辑模型。数据被逻辑地分成多个域,但不同位置不会有重复的数据。这种分布式方法可以为不同的物理数据创建安全区域,或为全球不同时区的用户提供全天候的服务。此外,有由Kognitio发起数据仓库托管服务,即DBMS厂商为客户开发和运行数据仓库。这种最初出现在业务部门,业务部门购买托管服务,而不是使用企业内IT部门提供的数据仓库。
2 数据挖掘技术
数据挖掘(DataMining),又称数据库中的知识发现(KnoWledge Discoveryin Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值并最终可为用户理解的模式过程。它是数据库研究中的很有应用价值的新领域,是人工智能、机器学习、数理统计学和神经元网络等技术在特定的数据仓库领域中的应用。数据挖掘的核心模块技术历经数十年的发展,其中包括数理统计、人工智能、机器学习。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。
从技术角度讲,数据挖掘可应用于以下方面:
(1)关联规则发现是在给定的事物集合中发现满足一定条件的关联规则,简单来讲,就是挖掘出隐藏在数据间的相互关系,为业务主题提供指导。
(2)序列模式分析和关联规则发现相似,但其侧重点在于分析数据间的前后关系。模式是按时间有序的。序列模式发现是在与时间有关的事物数据库中发现满足用户给定的最小支持度域值的所有有序序列。
(3)分类分析与聚类分析,分类规则的挖掘实际上是根据分类模型从数据对象中发现共性,并把它们分成不同的类的过程。聚类时间是将d维空间的n个数据对象,划分到k个类中,使得一个类内的数据对象间的相似度高于其他类中数据对象。聚类分析可以发现没有类别标记的一组数据对象的特性,总结出一个类别的特征。
(4)自动趋势预测,数据挖掘能自动在大型数据库里面寻找潜在的预测信息。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。
3 联机分析(OLAP)处理技术
联机分析(OLAP)是数据仓库实现为决策提供支持的重要工具,是共享多维信息,针对特定问题的联机数据访问和分析的快速软件技术。是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来,能够真正为用户所理解,并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术(OLAP委员会的定义)。OLAP的特性包括:①快速性:系统应能在5s内对用户的大部分分析要求做出反应;②可分析性:能处理与应用有关的任何逻辑分析和统计分析;⑨多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持;④信息性:系统应能及时获得信息,并能管理大容量信息。
OLAP的数据结构是多维,目前存在方式:①超立方结构(Hypercube),指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各部分都有相同的维属性(收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维);②多立方结构(Multicube),即将超立方结构变为子立方结构。面向某特定应用对维分割,它具有强灵活性,提高了数据(特别是稀疏数据)的分析效率。分析方法包括:切片、切块、旋转、钻取等。
OLAP也被称为共享的多维数据的快速分析FASMI,应用在数据密集型行业,如市场和销售分析、电子商务的分析、基于历史数据的营销、预算、财务报告与整合、管理报告、利益率、质量分析等。
4 小 结
采用数据仓库的数据挖掘及联机分析技术实现的决策支持系统,是弥补传统辅助决策系统能力不足的有效途径,具有重要的现实意义。
‘拾’ 如何设计、创建一个面向CRM的数据仓库
1 CRM系统
1.1 CRM简介
一个完整的CRM主要可分成3个部分:操作型CRM、协作型CRM和分析型CRM。操作型CRM是CRM中最基本的功能系统,它提供整个CRM的流程管理功能,主要是提供以客户为中心的市场、销售,服务与支持等业务流程的自动化。协作型CRM是以客户服务中心为主要表现形式,以计算机电话集成技术为核心,使客户可以通过电话、传真、E-mail、Web站点等方式更快捷、更有效地与企业进行交互。
分析型CRM是通过对操作型CRM、协作型CRM、其它企业应用系统和外部数据源中保存的与客户相关的数据的集成,建立以客户为中心的数据仓库,获得企业范围内客户数据的一致视图,并以集成后的客户数据为基础,通过查询与报表分析、OLAP分析和数据挖掘等手段获取关于客户的知识,为客户提供个性化的产品和服务,提高客户的满意度和忠诚度,实现客户终身价值的最大化。本文主要针对的是分析型CRM。
1.2在CRM中应用数据仓库的必然性
数据仓库是CRM的中心环节甚至是CRM的灵魂所在,它存储了企业内部和外部的各种数据,并将这些源数据整理成一致的、随时间变化的以及最大限度优化分析的客户信息库,通过OLAF分析和数据挖掘来发现大量客户信息中所隐藏的规律,为企业进行经营决策提供支持。另一方面,它将CRM的业务平台与分析平台进行了有效地分离,使得业务型数据库可以专注于事务处理,既提高了事务处理的效率又优化了分析处理的能力。
传统的企业事务处理系统部是各个部门根据自身事务处理的需要保留部分数据,而且各个模块之间的联系并不紧密,虽然客户的部分信息也能从这些系统中获取,但远远不能满足需要。例如,对于一个典型的以客户行为为目标的分析,通常需要更多的日常积累的、反映历史变化的数据才有可能进行有效地分析,然而在这一点上传统的教据库系统是很难做到的(不论是从数据的存储量还是从数据的整合来考虑)。因此,数据仓库的引入是必然的。
1.3分析型CRM的体系结构
将数据仓库技术引入到对客户信息的管理与组织上来,即建立一个面向CRM应用系统的客户信息数掘仓库,它实现了来自企业内部及外部的多种分割应用的客户信息的集成和统一,这正是分析型CRM的基本任务。如图1所示为分析型CRM的体系结构。其中,客户信息数据仓库是分析型CRM的核心,它的任务主要是从OLTP系统中抽取数据、把抽取出的数据进行统一的格式转换,将数据加载到数据仓库环境中(以上3步称为ETL,即extract,transform,load,抽取,转换,装载),管理和维护数据仓库中的数据。最后,通过对这些数据的OLAP分析和数据挖掘,企业管理者可以得到许多有价值的信息,从而更好地为客户服务。
建立数据仓库时,这里采用的是一种可扩展的数据仓库体系结构,即中间层包括两种类型的数据库:一种是基本的包含多个主题的数据仓库;另一种足从属的针对某一主题的数据集市。如图1所示,这里根据数据仓库中的4个主题分别设计了4千数据集市。采用可扩展的体系结构,可以缩短数据仓库的建设周期,降低费用支出,并且避免了直接建立数据集市而不建立数据仓库所存在的扩展性较差、多个教据集市间难以保持同步的铗点。
2客户信息数据仓库的设计
设计客户信息数据仓库的第一步就是要确立主题。主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的对象。设计数据仓库首先要从操作型环境中的数据入手,结合决策支持的实际需要,确定数据仓库的主题。根据所涉及的分析型CRM的功能,该客户信息数据仓库包含了客户发展、客户购买、产品和市场营销4个主题。其中,客户购买主题主要是从不同的角度对客户的购买行为进行分析,如客户的购买行为同客户的背景信息之间的关联,其中背景信息主要包括客户的教育程度、收入水平、年龄、性别、是否已婚等。在客户信息数据仓库模型中,分3步来进行设计,分剧是概念模型、逻辑模型和物理模型设计。本文针对某网上书店,以客户购买主题为例,给出该客户信息数据仓库模型的完整的设计方案。
2.1概念模型设计
数据仓库设计中概念模型设计的目的是确定面向主题的信息包围。信息包图作为一种公共的、一致的和紧凑的概念模型设计工具,能够明确反映用户的需求以及实现该需求所需的各种要素及其之间的关系。信息包图由名称、维度、类别和度量组成,其中类别表述的是维的层次性。
该网上书店的客户信息数据仓库中客户购买主题信息包图如图2所示。其中,对于图书有3种分类方法,前两种较常见,还有一种是按图书存在形式分类,可分为普通图书、Vbook和Ebook。普通图书即传统纸制图书,Ebook指以计算机和网络为载体的电子图书,Vbook是一种新的多媒体演示、培训、商业交流的载体,具备音频和视频的功能,如各领域专家的讲座,教学考试类培训课程等。随着计算机的普及和网络的发展,Ebook和Vbook越来越受到读者的青睐。
2.2逻辑模型设计
数据仓库的逻辑模型一般有星型模型和雪花模型两种。星型模型是基于关系型数据库的、面向OLAP的一种多维数据模型的数据组织形式,它由事实表和多个维度表组成,通过使用一个包括主题的事实表和多个包含事实的非正规化描述的维度表来执行决策支持查询,从而获得比高度规范化设计结构更高的查询性能。
雪花模型虽然较星型模型更符合规范化的设计结构,但它增加了查询的复杂度,降低了查询的性能,因此,这里采用星型模型。
星型模型的建立要以概念模型中的信息包圈为基础,将信息包图转换为星型模型,具体方法为:将信息包图中的度量实体放入星型模型的中心位置上,信息包图中的维度实体放入度量实体的周边。该客户信息数据仓库中客户购买主题的逻辑模型。
2.3物理模型设计
物理模型是指教据在数据仓库中的存放形式和组织形式。设计物理模型,要在星型模型或雪花模型的基础上,确定事实表和维表的结构;明确二者的数据字段、数据类型、关联字段、索引结构;确定数据仓库中多维数据集的存储结构,如物理存取方式、数据存储结构、数据存放位置以厦存储分配是否分区等。进行物理模型设计时,应重点考虑的因素有I/O存取时间、空间利用率和维护代价。
目前大多数数据仓库都是建立在关系型数据库的基础上,基终数据的存储是由数据库系统进行管理的。在该数据仓库的设计中,选用MSSQLServer2000及其组件分析服务器来作为数据库和数据仓库的管理系统。数据仓库在逻辑上是多维的,但在物理存储上其多维数据集的存储方式可以有关系型联机分析处理(,ROLAP),多维联机分析处理(,MOLAP)和混台联机分析处理(,HOLAP)3种方式。
在该数据仓库中,多维数据集的存储选择HOLAP方式,即基本数据保留在原有的关系数据库中,而聚合体则存储在分析服务器上的多维结构中,这样不仅可以避免数据重复,还能够提高查询性能(因为聚合体存储在多维数据集中),仅在频繁访问详细数据时对性能影响较大。
3 实 现
针对该网上书店,此数据仓库的实施是以MSSQLServer2000平台为基础。通过SQLServer中的DTS服务,并辅以VBScript来实现将源数据导入数据仓库的ETL过程;通过AnalysisServices来建立多维数据集,实现OLAP操作,支持多维查询袁达式(multidimensionalexpression,MDX)查询,并通过自动构造MDX语句,实现上卷、下钻、切片、切块、旋转等OLAP运算。
该客户信息数据仓库共包含了客户发展、客户购买、产品和市场营销4个主题,对客户购买主题的OLAP分析示例。其中,用户可以从客户所在地区、年龄层、性别、婚姻状况,职业、年收入层、会员星级、图书一按内容分类、图书按出版社分类、图书一按存在形式分类及时间共11个维度,来分析客户购买数量、金额、成本、利润及平均单价这5个度量。
此外,利用AnalysisServices所提供的数据透视表服务,用户可以用VB或其它语言开发自己想要的前端数据展现程序,也可以直接利用现有工具,如MSOffice套件中的Excel、Access,来实现对多维数据集的数据展现功能,从而可以方便地得到各种统计报表和分析图形。利用Excel展现了对2005年不同年龄层的客户对不同种类图书的购买情况的利润分析。