『壹』 數據倉庫數據建模的幾種思路
數據倉庫數據建模的幾種思路主要分為一下幾種
1. 星型模式
星形模式(Star Schema)是最常用的維度建模方式。星型模式是以事實表為中心,所有的維度表直接連接在事實表上,像星星一樣。星形模式的維度建模由一個事實表和一組維表成,且具有以下特點:a. 維表只和事實表關聯,維表之間沒有關聯;b. 每個維表主鍵為單列,且該主鍵放置在事實表中,作為兩邊連接的外鍵;c. 以事實表為核心,維表圍繞核心呈星形分布;
星座模型
『貳』 如何建設工業大數據可視化系統
工業數據可視化決策系統可以通過虛擬現實、數據儀錶板等多種顯示手段,實現與工業企業原有自動控制系統的結合。為大數據時代的工業生產監控、設備監控和虛擬製造應用提供最佳的可視化解決方案。
以萬博思圖設計可視化大屏幕系統為例,平台可連接分布在世界各地的40多萬台設備,實時採集運行數據,遠程管理設備組的運行狀態。實現准確的產品分析、預測和運營支持,同時藉助工業大數據實現傳統製造向智能製造的轉變和升級。可視化大屏幕分為四個場景:智能服務、共享經濟、模式創新和研發輔助。採集設備轉速、針數、電壓及各種實時生產能力的運行數據。充分發揮數據儀錶板在各種圖表中合理分組的優點,實現儀表數據的快速狀態切換,滿足不同場景監控的需要。通過構建工業可視化指揮決策平台,可以充分整合生產、維修等部門的信息資源,有效集成智能分析功能,實現對「人」和「設備」的綜合監控。協助經理在生產活動中實現事件的預警、指揮和調度,事件發生後的分析和評估。
多維數據組合,工業設備實時監控.。
為了滿足工業企業對設備生產的全面控制,該平台通過接入所有生產設備終端信息系統,全面顯示設備實時運行數據,幫助管理人員隨時了解設備狀態。通過對各部件的實時數據採集和試驗數據的比較,對機組各部件的剩餘壽命進行預測和可視化,有助於判斷生產設備的更換時間,提高企業的生產效率。同時,該平台還可以自動對數據進行深度關聯,如實時監控設備能力、收益、趨勢等綜合數據,方便整體分析,找出生產中難以單憑數據發現的隱患。及時向相關部門下達決策指示。
工業互聯的應用,設備預警管理的可視化。
通過對設備狀態數據的實時採集,為生產提供設備能力數據;同時通過建立數據健康管理文件(獲取設備狀態實時數據,建立數據健康管理文件),並根據積累的設備運行數據建立故障預測模型,進行預測維修,減少工程師的響應時間,提高一次性維修率,最大限度地減少設備的計劃外停機時間。
智能分析,模式創新可視化。
系統通過梳理大量數據,可視化地顯示重要設備的詳細動態曲線、統計圖,從而分析生產設備的適用性、合理性和效率。同時,通過工業設備的在線監測數據,提供關鍵決策。
『叄』 誰能給我解釋一下「資料庫」究竟是干什麼的怎麼建立資料庫呢
資料庫是把一定的數據按一定的邏輯關系存儲起來的文件集合,狹義的資料庫僅僅指存儲數據的文件,廣義的資料庫還包括建立、管理數據文件的軟體如foxpro,sqlserver.
一個構建得比較完善資料庫的作用是難以用語言表達的,比如簡單點的全校師生的自然狀況,一個商店所有商品的貨源、進價、數量、進貨日期、采購員……,這都是很簡單的資料庫,復雜點的是一個大型網路游戲所有的成員的賬號密碼或是三峽工程所有參加人員和工程車輛的統計表,一個國家工業企業設備能力……建好的資料庫對數據進行統計、查詢、計算等非常方便快速。
至於怎麼學資料庫,不是三五天或三五個星期能學明白的。你可以用三天時間學會怎麼做一個簡單的圖書館查詢系統,你可能用了三年還搞不定SQlserver的索引和指針。如果只是做圖書館查詢這種,隨便找本傻瓜書就行,這東西真想學好,先看薩師煊的《資料庫原理》吧,要有點高等數學基礎。
『肆』 什麼是數據倉庫
1、面向主題。操作型資料庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
2、集成的。面向事務處理的操作型資料庫通常與某些特定的應用相關,資料庫之間相互獨立,並且往往是異構的。而數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。
3、相對穩定的。操作型資料庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。
4、反映歷史變化。操作型資料庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理歸納和重組,並及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,是一個過程。
『伍』 請問數據倉庫都用什麼建立
1、首先你得搞清楚建設數倉的目的是什麼
是偏向於整合各系統數據,為數據分析決策服務,還是偏向於快速的完成分析決策需求?
如果是前者,那麼在數據倉庫建模的時候一般會選擇ER建模方法;
如果是後者,一般會選擇維度建模方法。
ER建模:即實體關系建模,由數據倉庫之父BIll Inmon提出,核心思想是從全企業的高度去設計三範式模型,用實體關系描述企業服務。主張的是自上而下的架構,將不同的OLTP數據集中到面向主題的數據倉庫中。
維度建模:由Kimball提出,核心思想是從分析決策的需求出發構建模型。這種模型由事實表和維表組成,即星型模型和雪花模型。Kimball倡導自下而上的架構,可以針對獨立部門建立數據集市,再遞增的構建,匯總成數據倉庫。
2、其次你得進行深入的業務調研和數據調研
業務調研:深入的業務調研能使你更加明確數倉建設的目的;同時也利於後續的建模設計,隨著調研的開展,如何將實體業務抽象為數倉模型會更加明朗。
數據調研:各部門或各科室的數據現狀了解,包括數據分類、數據存儲方式、數據量、具體的數據內容等等。這對後續的主數據串聯或者維度一致性處理等等都是必須的基礎。
3、然後是數據倉庫工具選型
傳統型數據倉庫:一般會選擇第三方廠家的資料庫和配套ETL工具。因為有第三方支持,相對有保障;但缺點也很明顯,受約束以及成本較高。
NoSQL型數據倉庫:一般是基於hadoop生態的數據倉庫。hadoop生態已經非常強大,可以找到各種開源組件去支持數據倉庫。缺點是需要招聘專門人士去摸索,並且相對會存在一些未知隱患。
4、最後是設計與實施
設計:包括數據架構中的數據層次劃分以及具體的模型設計;也包括程序架構中的數據質量管理、元數據管理、調度管理等;
實施:規范化的項目管理實施,但同時也需記住一點,數據倉庫不是一個項目,它是一個過程。
『陸』 什麼是數據倉庫
資料庫是一個裝數據(信息的原材料)的地方。 數據倉庫是一種系統,這種系統也是用資料庫裝東西。(這有點沒說清楚:個人理解資料庫和數據倉庫當然都是裝數據的地方,關鍵的區別是裝的什麼樣的數據,資料庫裝的原始數據,沒經過任何加工;而數據倉庫是為了滿足分析需要,對源數據進行了Transform過程,具體是怎樣一個處理過程,可以從Bill Inmon的倉庫定義四個特性進行理解。)數據倉庫系統(用資料庫裝東西)與其他基礎業務系統(例如財務系統、銷售系統、人力資源系統等,也是用資料庫裝東西)的區別是: 基礎業務系統的特點是各管各的,例如財務系統生產了白菜,那麼用一個資料庫來裝,人力資源系統生產了豬肉,再用一個資料庫來裝。我要做一道菜,需要分別到各個資料庫去取,比較麻煩(現實的情況是大部分時候讓種菜的農民伯伯送過來,但送過來的東西不一定是我想要的,而且不同的時候我想要不同的東西,經常會被農民伯伯罵,弄得雙方都不開心)。另外一方面,各個資料庫中放的是一些比較原始的東西,我要拿過來做菜,還需要經過很麻煩的清洗過程,一不小心裏面可能就藏著一條大青蟲。那麼,數據倉庫系統就是建立一個大的超市,將各地農民伯伯出產的東西收集過來,清洗干凈,分門別類地放好。這樣,你要哪種菜的時候,直接從超市裡面拿就可以了。
數據倉庫的特點是:
(1)數據倉庫是面向主題的.
(2)數據倉庫是集成的
(3)數據倉庫具有時間相關性.
(4)數據倉庫的數據是相對穩定的.
數據倉庫可以說是決策支持系統(個人不同意這個觀點,決策支持系統(DDS)是在管理信息系統的基礎上發展起來的,在數據倉庫、OLAP技術和數據挖掘工具出現以前,就已經有DSS了,但其在實際應用開發過程中暴露出許多問題,DW為克服傳統DDS存在的問題提供了技術上的支持,基於DW上的DSS效果自然有很大提升),能幫助老闆了解企業的整體全貌,看到數據倉庫提供的經過整理統計歸納的數據後老闆憑自己的管理經驗可以發現企業的問題或困難或成功因素在哪一方面,然後可以不斷的追溯數據,直到確定到最具體的細節上,這樣能夠不斷提升老闆或管理層的管理水平,不斷改善企業的管理。我們知道的最好的一個例子就是美國某大型超市啤酒和尿布的故事。 沃爾瑪公司在美國的一位店面經理曾發現,每周,啤酒和尿布的銷量都會有一次同比攀升,一時卻搞不清是什麼原因。後來,沃爾瑪運用商業智能(Business Intelligence,簡稱BI)技術發現,購買這兩種產品的顧客幾乎都是25歲到35歲、家中有嬰兒的男性,每次購買的時間均在周末。沃爾瑪在對相關數據分析後得知,這些人習慣晚上邊看球賽、邊喝啤酒,邊照顧孩子,為了圖省事而使用一次性的尿布。得到這個結果後,沃爾瑪決定把這兩種商品擺放在一起,結果,這兩種商品的銷量都有了顯著增加。 資料庫是數據倉庫的基礎。數據倉庫實際上也是由資料庫的很多表組成的(這句話明顯不成立,數據倉庫里表分為事實表和維表,這和資料庫里的表還是有本質區別的,組織方式完全不一樣,一個是面向主題,一個是面向業務的)。需要把存放大量操作性業務數據的資料庫經過篩選、抽取、歸納、統計、轉換到一個新的資料庫中。然後再進行數據展現。老闆關注的是數據展現的結果。
『柒』 數據倉庫是做什麼的
目前,數據倉庫一詞尚沒有一個統一的定義,著名的數據倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策。對於數據倉庫的概念我們可以從兩個層次予以理解,首先,數據倉庫用於支持決策,面向分析型數據處理,它不同於企業現有的操作型資料庫;其次,數據倉庫是對多個異構的數據源有效集成,集成後按照主題進行了重組,並包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。
根據數據倉庫概念的含義,數據倉庫擁有以下四個特點:
1、面向主題。操作型資料庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
2、集成的。面向事務處理的操作型資料庫通常與某些特定的應用相關,資料庫之間相互獨立,並且往往是異構的。而數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。
3、相對穩定的。操作型資料庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。
4、反映歷史變化。操作型資料庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理歸納和重組,並及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,是一個過程。
整個數據倉庫系統是一個包含四個層次的體系結構,具體由下圖表示。
數據倉庫系統體系結構
·數據源:是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。內部信息包括存放於RDBMS中的各種業務處理數據和各類文檔數據。外部信息包括各類法律法規、市場信息和競爭對手的信息等等;
·數據的存儲與管理:是整個數據倉庫系統的核心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別於傳統資料庫,同時也決定了其對外部數據的表現形式。要決定採用什麼產品和技術來建立數據倉庫的核心,則需要從數據倉庫的技術特點著手分析。針對現有各業務系統的數據,進行抽取、清理,並有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市)。
·OLAP伺服器:對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,並發現趨勢。其具體實現可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數據和聚合數據均存放在RDBMS之中;MOLAP基本數據和聚合數據均存放於多維資料庫中;HOLAP基本數據存放於RDBMS之中,聚合數據存放於多維資料庫中。
·前端工具:主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具以及各種基於數據倉庫或數據集市的應用開發工具。其中數據分析工具主要針對OLAP伺服器,報表工具、數據挖掘工具主要針對數據倉庫。
『捌』 數據倉庫的實現方式
數據倉庫是一個過程而不是一個項目。
數據倉庫系統是一個信息提供平台,他從業務處理系統獲得數據,主要以星型模型和雪花模型進行數據組織,並為用戶提供各種手段從數據中獲取信息和知識。
從功能結構劃分,數據倉庫系統至少應該包含數據獲取(Data Acquisition)、數據存儲(Data Storage)、數據訪問(Data Access)三個關鍵部分。
企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理歸納和重組,並及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,是一個過程。
『玖』 企業如何更好的搭建數據倉庫
0 引 言
隨著計算機應用的深入,大量數據存儲在計算機中,信息的存儲、管理、使用和維護顯得越來越重要,而傳統的資料庫管理系統很難滿足其要求。為了解決大數據量、異構數據集成以及訪問數據的響應速度問題,採用數據倉庫技術,為最終用戶處理所需的決策信息提供有效方法。
1 數據倉庫
數據倉庫是為管理人員進行決策提供支持的一種面向主題的、集成的、非易失的並隨時間而變化的數據集合。數據倉庫是一種作為決策支持系統和聯機分析應用數據源的結構化數據環境。
從目前數據倉庫的發展來講,數據可以存放於不同類型的資料庫中,數據倉庫是將異種數據源在單個站點以統一的模型組織的存儲,以支持管理決策。數據倉庫技術包括數據清理、數據集成、聯機分析處理(OLAP)和數據挖掘(DM)。OLAP是多維查詢和分析工具,支持決策者圍繞決策主題對數據進行多角度、多層次的分析。OLAP側重於交互性、快速的響應速度及提供數據的多維視圖,而DM則注重自動發現隱藏在數據中的模式和有用信息。OLAP的分析結果可以給DM提供分析信息,作為挖掘的依據;DM可以拓展OLAP分析的深度,可以發現OLAP所不能發現的更為復雜、細致的信息。OLAP是聯機分析處理,DM是通過對資料庫、數據倉庫中的數據進行分析而獲得知識的方法和技術,即通過建立模型來發現隱藏在組織機構資料庫中的模式和關系。這兩者結合起來可滿足企業對數據整理和信息提取的要求,幫助企業高層做出決策。在歐美發達國家,以數據倉庫為基礎的在線分析處理和數據挖掘應用,首先在金融、保險、證券、電信等傳統數據密集型行業取得成功。IBM、oracle、Teradata、Microsoft、Netezza和SAS等有實力的公司相繼推出了數據倉庫解決方案。
近幾年開始流行「分布式數據倉庫」,是在多個物理位置應用全局邏輯模型。數據被邏輯地分成多個域,但不同位置不會有重復的數據。這種分布式方法可以為不同的物理數據創建安全區域,或為全球不同時區的用戶提供全天候的服務。此外,有由Kognitio發起數據倉庫託管服務,即DBMS廠商為客戶開發和運行數據倉庫。這種最初出現在業務部門,業務部門購買託管服務,而不是使用企業內IT部門提供的數據倉庫。
2 數據挖掘技術
數據挖掘(DataMining),又稱資料庫中的知識發現(KnoWledge Discoveryin Database,KDD),是指從大型資料庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值並最終可為用戶理解的模式過程。它是資料庫研究中的很有應用價值的新領域,是人工智慧、機器學習、數理統計學和神經元網路等技術在特定的數據倉庫領域中的應用。數據挖掘的核心模塊技術歷經數十年的發展,其中包括數理統計、人工智慧、機器學習。從技術角度看,數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的實際數據中,提取隱含在其中的、人們所不知道的、但又是潛在有用的信息和知識的過程。從商業應用角度看,數據挖掘是嶄新的商業信息處理技術,其主要特點是對商業資料庫中的大量業務數據進行抽取、轉化、分析和模式化處理,從中提取輔助商業決策的關鍵知識。
從技術角度講,數據挖掘可應用於以下方面:
(1)關聯規則發現是在給定的事物集合中發現滿足一定條件的關聯規則,簡單來講,就是挖掘出隱藏在數據間的相互關系,為業務主題提供指導。
(2)序列模式分析和關聯規則發現相似,但其側重點在於分析數據間的前後關系。模式是按時間有序的。序列模式發現是在與時間有關的事物資料庫中發現滿足用戶給定的最小支持度域值的所有有序序列。
(3)分類分析與聚類分析,分類規則的挖掘實際上是根據分類模型從數據對象中發現共性,並把它們分成不同的類的過程。聚類時間是將d維空間的n個數據對象,劃分到k個類中,使得一個類內的數據對象間的相似度高於其他類中數據對象。聚類分析可以發現沒有類別標記的一組數據對象的特性,總結出一個類別的特徵。
(4)自動趨勢預測,數據挖掘能自動在大型資料庫裡面尋找潛在的預測信息。一個典型的利用數據挖掘進行預測的例子就是目標營銷。數據挖掘工具可以根據過去郵件推銷中的大量數據找出其中最有可能對將來的郵件推銷作出反應的客戶。
3 聯機分析(OLAP)處理技術
聯機分析(OLAP)是數據倉庫實現為決策提供支持的重要工具,是共享多維信息,針對特定問題的聯機數據訪問和分析的快速軟體技術。是使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來,能夠真正為用戶所理解,並真實反映企業維特性的信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟體技術(OLAP委員會的定義)。OLAP的特性包括:①快速性:系統應能在5s內對用戶的大部分分析要求做出反應;②可分析性:能處理與應用有關的任何邏輯分析和統計分析;⑨多維性:多維性是OLAP的關鍵屬性。系統必須提供對數據的多維視圖和分析,包括對層次維和多重層次維的完全支持;④信息性:系統應能及時獲得信息,並能管理大容量信息。
OLAP的數據結構是多維,目前存在方式:①超立方結構(Hypercube),指用三維或更多的維數來描述一個對象,每個維彼此垂直。數據的測量值發生在維的交叉點上,數據空間的各部分都有相同的維屬性(收縮超立方結構。這種結構的數據密度更大,數據的維數更少,並可加入額外的分析維);②多立方結構(Multicube),即將超立方結構變為子立方結構。面向某特定應用對維分割,它具有強靈活性,提高了數據(特別是稀疏數據)的分析效率。分析方法包括:切片、切塊、旋轉、鑽取等。
OLAP也被稱為共享的多維數據的快速分析FASMI,應用在數據密集型行業,如市場和銷售分析、電子商務的分析、基於歷史數據的營銷、預算、財務報告與整合、管理報告、利益率、質量分析等。
4 小 結
採用數據倉庫的數據挖掘及聯機分析技術實現的決策支持系統,是彌補傳統輔助決策系統能力不足的有效途徑,具有重要的現實意義。
『拾』 如何設計、創建一個面向CRM的數據倉庫
1 CRM系統
1.1 CRM簡介
一個完整的CRM主要可分成3個部分:操作型CRM、協作型CRM和分析型CRM。操作型CRM是CRM中最基本的功能系統,它提供整個CRM的流程管理功能,主要是提供以客戶為中心的市場、銷售,服務與支持等業務流程的自動化。協作型CRM是以客戶服務中心為主要表現形式,以計算機電話集成技術為核心,使客戶可以通過電話、傳真、E-mail、Web站點等方式更快捷、更有效地與企業進行交互。
分析型CRM是通過對操作型CRM、協作型CRM、其它企業應用系統和外部數據源中保存的與客戶相關的數據的集成,建立以客戶為中心的數據倉庫,獲得企業范圍內客戶數據的一致視圖,並以集成後的客戶數據為基礎,通過查詢與報表分析、OLAP分析和數據挖掘等手段獲取關於客戶的知識,為客戶提供個性化的產品和服務,提高客戶的滿意度和忠誠度,實現客戶終身價值的最大化。本文主要針對的是分析型CRM。
1.2在CRM中應用數據倉庫的必然性
數據倉庫是CRM的中心環節甚至是CRM的靈魂所在,它存儲了企業內部和外部的各種數據,並將這些源數據整理成一致的、隨時間變化的以及最大限度優化分析的客戶信息庫,通過OLAF分析和數據挖掘來發現大量客戶信息中所隱藏的規律,為企業進行經營決策提供支持。另一方面,它將CRM的業務平台與分析平台進行了有效地分離,使得業務型資料庫可以專注於事務處理,既提高了事務處理的效率又優化了分析處理的能力。
傳統的企業事務處理系統部是各個部門根據自身事務處理的需要保留部分數據,而且各個模塊之間的聯系並不緊密,雖然客戶的部分信息也能從這些系統中獲取,但遠遠不能滿足需要。例如,對於一個典型的以客戶行為為目標的分析,通常需要更多的日常積累的、反映歷史變化的數據才有可能進行有效地分析,然而在這一點上傳統的教據庫系統是很難做到的(不論是從數據的存儲量還是從數據的整合來考慮)。因此,數據倉庫的引入是必然的。
1.3分析型CRM的體系結構
將數據倉庫技術引入到對客戶信息的管理與組織上來,即建立一個面向CRM應用系統的客戶信息數掘倉庫,它實現了來自企業內部及外部的多種分割應用的客戶信息的集成和統一,這正是分析型CRM的基本任務。如圖1所示為分析型CRM的體系結構。其中,客戶信息數據倉庫是分析型CRM的核心,它的任務主要是從OLTP系統中抽取數據、把抽取出的數據進行統一的格式轉換,將數據載入到數據倉庫環境中(以上3步稱為ETL,即extract,transform,load,抽取,轉換,裝載),管理和維護數據倉庫中的數據。最後,通過對這些數據的OLAP分析和數據挖掘,企業管理者可以得到許多有價值的信息,從而更好地為客戶服務。
建立數據倉庫時,這里採用的是一種可擴展的數據倉庫體系結構,即中間層包括兩種類型的資料庫:一種是基本的包含多個主題的數據倉庫;另一種足從屬的針對某一主題的數據集市。如圖1所示,這里根據數據倉庫中的4個主題分別設計了4千數據集市。採用可擴展的體系結構,可以縮短數據倉庫的建設周期,降低費用支出,並且避免了直接建立數據集市而不建立數據倉庫所存在的擴展性較差、多個教據集市間難以保持同步的鋏點。
2客戶信息數據倉庫的設計
設計客戶信息數據倉庫的第一步就是要確立主題。主題是一個抽象的概念,是在較高層次上將企業信息系統中的數據綜合、歸類並進行分析利用的對象。設計數據倉庫首先要從操作型環境中的數據入手,結合決策支持的實際需要,確定數據倉庫的主題。根據所涉及的分析型CRM的功能,該客戶信息數據倉庫包含了客戶發展、客戶購買、產品和市場營銷4個主題。其中,客戶購買主題主要是從不同的角度對客戶的購買行為進行分析,如客戶的購買行為同客戶的背景信息之間的關聯,其中背景信息主要包括客戶的教育程度、收入水平、年齡、性別、是否已婚等。在客戶信息數據倉庫模型中,分3步來進行設計,分劇是概念模型、邏輯模型和物理模型設計。本文針對某網上書店,以客戶購買主題為例,給出該客戶信息數據倉庫模型的完整的設計方案。
2.1概念模型設計
數據倉庫設計中概念模型設計的目的是確定面向主題的信息包圍。信息包圖作為一種公共的、一致的和緊湊的概念模型設計工具,能夠明確反映用戶的需求以及實現該需求所需的各種要素及其之間的關系。信息包圖由名稱、維度、類別和度量組成,其中類別表述的是維的層次性。
該網上書店的客戶信息數據倉庫中客戶購買主題信息包圖如圖2所示。其中,對於圖書有3種分類方法,前兩種較常見,還有一種是按圖書存在形式分類,可分為普通圖書、Vbook和Ebook。普通圖書即傳統紙制圖書,Ebook指以計算機和網路為載體的電子圖書,Vbook是一種新的多媒體演示、培訓、商業交流的載體,具備音頻和視頻的功能,如各領域專家的講座,教學考試類培訓課程等。隨著計算機的普及和網路的發展,Ebook和Vbook越來越受到讀者的青睞。
2.2邏輯模型設計
數據倉庫的邏輯模型一般有星型模型和雪花模型兩種。星型模型是基於關系型資料庫的、面向OLAP的一種多維數據模型的數據組織形式,它由事實表和多個維度表組成,通過使用一個包括主題的事實表和多個包含事實的非正規化描述的維度表來執行決策支持查詢,從而獲得比高度規范化設計結構更高的查詢性能。
雪花模型雖然較星型模型更符合規范化的設計結構,但它增加了查詢的復雜度,降低了查詢的性能,因此,這里採用星型模型。
星型模型的建立要以概念模型中的信息包圈為基礎,將信息包圖轉換為星型模型,具體方法為:將信息包圖中的度量實體放入星型模型的中心位置上,信息包圖中的維度實體放入度量實體的周邊。該客戶信息數據倉庫中客戶購買主題的邏輯模型。
2.3物理模型設計
物理模型是指教據在數據倉庫中的存放形式和組織形式。設計物理模型,要在星型模型或雪花模型的基礎上,確定事實表和維表的結構;明確二者的數據欄位、數據類型、關聯欄位、索引結構;確定數據倉庫中多維數據集的存儲結構,如物理存取方式、數據存儲結構、數據存放位置以廈存儲分配是否分區等。進行物理模型設計時,應重點考慮的因素有I/O存取時間、空間利用率和維護代價。
目前大多數數據倉庫都是建立在關系型資料庫的基礎上,基終數據的存儲是由資料庫系統進行管理的。在該數據倉庫的設計中,選用MSSQLServer2000及其組件分析伺服器來作為資料庫和數據倉庫的管理系統。數據倉庫在邏輯上是多維的,但在物理存儲上其多維數據集的存儲方式可以有關系型聯機分析處理(,ROLAP),多維聯機分析處理(,MOLAP)和混台聯機分析處理(,HOLAP)3種方式。
在該數據倉庫中,多維數據集的存儲選擇HOLAP方式,即基本數據保留在原有的關系資料庫中,而聚合體則存儲在分析伺服器上的多維結構中,這樣不僅可以避免數據重復,還能夠提高查詢性能(因為聚合體存儲在多維數據集中),僅在頻繁訪問詳細數據時對性能影響較大。
3 實 現
針對該網上書店,此數據倉庫的實施是以MSSQLServer2000平台為基礎。通過SQLServer中的DTS服務,並輔以VBScript來實現將源數據導入數據倉庫的ETL過程;通過AnalysisServices來建立多維數據集,實現OLAP操作,支持多維查詢袁達式(multidimensionalexpression,MDX)查詢,並通過自動構造MDX語句,實現上卷、下鑽、切片、切塊、旋轉等OLAP運算。
該客戶信息數據倉庫共包含了客戶發展、客戶購買、產品和市場營銷4個主題,對客戶購買主題的OLAP分析示例。其中,用戶可以從客戶所在地區、年齡層、性別、婚姻狀況,職業、年收入層、會員星級、圖書一按內容分類、圖書按出版社分類、圖書一按存在形式分類及時間共11個維度,來分析客戶購買數量、金額、成本、利潤及平均單價這5個度量。
此外,利用AnalysisServices所提供的數據透視表服務,用戶可以用VB或其它語言開發自己想要的前端數據展現程序,也可以直接利用現有工具,如MSOffice套件中的Excel、Access,來實現對多維數據集的數據展現功能,從而可以方便地得到各種統計報表和分析圖形。利用Excel展現了對2005年不同年齡層的客戶對不同種類圖書的購買情況的利潤分析。