數(shù)據(jù)倉庫數(shù)據(jù)集市概念區(qū)別.doc
《數(shù)據(jù)倉庫數(shù)據(jù)集市概念區(qū)別.doc》由會員分享,可在線閱讀,更多相關《數(shù)據(jù)倉庫數(shù)據(jù)集市概念區(qū)別.doc(7頁珍藏版)》請在裝配圖網(wǎng)上搜索。
數(shù)據(jù)集市數(shù)據(jù)倉庫 NCR公司可擴展數(shù)據(jù)倉庫解決方案小組 王闖舟 編譯我們知道,決策支持系統(tǒng)(DSS)主要有兩種實現(xiàn)方式,即建立一個數(shù)據(jù)集市或者一個數(shù)據(jù)倉庫。到底哪一種更能滿足決策支持的要求并且適合企業(yè)今后的發(fā)展,是近兩年來學術界和有關供應商激烈爭論的一個話題。在數(shù)據(jù)集市領域,主要的供應商和擁護者以美國紅磚(Red Brick)公司為代表,其總裁Ralph Kimball在1997年12月的一篇論文中提出,數(shù)據(jù)倉庫只不過是一些數(shù)據(jù)集市的集合而已。認為企業(yè)多建立一些數(shù)據(jù)集市,將來自然就形成了數(shù)據(jù)倉庫。而業(yè)界公認的數(shù)據(jù)倉庫之父 Bill Inmon在今年1月立即撰文反駁,旗幟鮮明地指出,你可以在大海中捕到很多的小魚并堆積起來,但它們?nèi)匀徊皇泅L。在5月份的數(shù)據(jù)管理綜述(DataManagement Review)中,Bill Inmon又發(fā)表了數(shù)據(jù)集市不等于數(shù)據(jù)倉庫的論文,進一步闡述兩者在本質(zhì)上的區(qū)別以及各自的適用場合,本文就是根據(jù)這篇論文的主要內(nèi)容編譯而成的。問題的提出現(xiàn)在,各企業(yè)IT部門的經(jīng)理所面臨的最主要問題之一是先建立數(shù)據(jù)倉庫還是先建立數(shù)據(jù)集市。長期以來,數(shù)據(jù)集市供應商們不斷地給他們灌輸這樣的觀念,即建立數(shù)據(jù)倉庫比較復雜,投資過大,設計與開發(fā)周期太長,難以集成和管理企業(yè)范圍內(nèi)的各種源數(shù)據(jù);并認為,基于數(shù)據(jù)倉庫的DSS投資方案難以得到企業(yè)管理層的批準。數(shù)據(jù)集市供應商們給業(yè)界描繪了一幅數(shù)據(jù)倉庫前景暗淡的圖畫,這完全是出于自身的目的,是不正確的。數(shù)據(jù)集市供應商們把數(shù)據(jù)倉庫當成其增加營業(yè)收入的絆腳石,自然要避開和攻擊數(shù)據(jù)倉庫。事實上,他們在銷售時強調(diào)數(shù)據(jù)集市的建設周期短,是以企業(yè)信息系統(tǒng)結(jié)構(gòu)的長期規(guī)劃為代價的。持數(shù)據(jù)集市主張的人認為,決策支持系統(tǒng)的成功實現(xiàn),除了數(shù)據(jù)倉庫以外,還有更簡便、更有效的其它途徑。方法之一就是建立多個數(shù)據(jù)集市,當它們增加得足夠大時,那就是所謂的數(shù)據(jù)倉庫了。這些人聲稱,建立數(shù)據(jù)集市要快得多也便宜得多,因為當考慮建立一個數(shù)據(jù)集市時,不必考慮各部門之間的區(qū)別,也不必設立部門之間協(xié)調(diào)的規(guī)則,更不存在結(jié)構(gòu)設計上的長期規(guī)劃問題。不幸的是,這種方法雖然避免了建立數(shù)據(jù)倉庫存在的部門協(xié)調(diào)與規(guī)劃上的問題,卻完全偏離了數(shù)據(jù)倉庫的要點。當企業(yè)的信息結(jié)構(gòu)完全由數(shù)據(jù)集市構(gòu)成時,其整個組織將變得更加混亂。因為在建立決策支持系統(tǒng)以前,我們可能只是原來的生產(chǎn)系統(tǒng)有些凌亂,現(xiàn)在的狀況則可能是凌亂的生產(chǎn)系統(tǒng)再加上雜亂的數(shù)據(jù)集市。由于企業(yè)內(nèi)所有的決策支持系統(tǒng)均是數(shù)據(jù)集市,相互之間沒有集成,其結(jié)果可想而知沒有集成的決策支持系統(tǒng)就像沒有骨骼的人體一樣,是沒有實用價值的。方式的改變早期,數(shù)據(jù)集市供應商們宣稱數(shù)據(jù)集市和數(shù)據(jù)倉庫是相同的系統(tǒng),試圖通過這種偷梁換柱的方式來進入數(shù)據(jù)倉庫市場。在各種展示會期間,他們不遺余力地進行著各種宣傳,從而混淆了數(shù)據(jù)集市與數(shù)據(jù)倉庫的概念。由于這種錯誤概念的傳播,使一些客戶建立了數(shù)據(jù)集市而非真正的數(shù)據(jù)倉庫。但隨著時間的推移,數(shù)據(jù)集市結(jié)構(gòu)上的缺陷開始暴露出來,主要體現(xiàn)在以下幾點:1) 各數(shù)據(jù)集市之間對詳細數(shù)據(jù)和歷史數(shù)據(jù)的存儲存在大量冗余;2) 同一個問題在不同數(shù)據(jù)集市的查詢結(jié)果可能不一致甚至相互矛盾;3) 各數(shù)據(jù)集市之間以及與源生產(chǎn)系統(tǒng)之間難以管理。總之,業(yè)界已經(jīng)普遍認同,一個沒有數(shù)據(jù)倉庫而建立的決策支持系統(tǒng)是很難達到預期效果的。大量事實表明,為了處理決策支持方面的需求,建立數(shù)據(jù)集市不是正確的途徑。在這種情況下,數(shù)據(jù)集市供應商們及其代言人稍微改變了一些原來的說法,向客戶承諾成功實施決策支持系統(tǒng)的新方式。和原來不同的是,他們現(xiàn)在宣稱,數(shù)據(jù)倉庫只不過是多個數(shù)據(jù)集市的集成而已。這從另外一方面混淆了數(shù)據(jù)倉庫與數(shù)據(jù)集市的概念。事實上,這樣的論斷是矛盾的。因為數(shù)據(jù)集市的實質(zhì)就是每個部門擁有自己的數(shù)據(jù),最終用戶各自負責自己的業(yè)務,相互之間沒有關系,各集市之間沒必要也沒辦法相互集成。為了理解為什么數(shù)據(jù)集市不能轉(zhuǎn)變?yōu)閿?shù)據(jù)倉庫,我們首先必須搞清楚兩者的定義??蚣艿牟煌?. 什么是數(shù)據(jù)集市一般說來,一個數(shù)據(jù)集市是按照某一特定部門的決策支持需求而組織起來的、針對一組主題的應用系統(tǒng)。例如,財務部擁有自己的數(shù)據(jù)集市,用來進行財務方面的報表和分析,市場推廣部、銷售部等也擁有各自專用的數(shù)據(jù)集市,用來為本部門的決策支持提供輔助手段。這些部門數(shù)據(jù)集市之間相似之處很少,但最嚴重的缺點是,每個部門獨立擁有自己的硬件平臺、軟件平臺、數(shù)據(jù)和應用程序。這種關系使得部門之間沒有任何約束,而許多數(shù)據(jù)在整個企業(yè)內(nèi)原本應該是相互制約、相互協(xié)調(diào)的。這種獨立最終導致了不一致性。由于每個部門有自己特定的需求,因此他們對數(shù)據(jù)集市的期望也不一樣。一般說來,數(shù)據(jù)集市中數(shù)據(jù)庫的設計采用星形連接 (Star-Join)的結(jié)構(gòu),這種結(jié)構(gòu)對部門用戶而言是最優(yōu)的,但對企業(yè)范圍而言則不然。為了提高星形連接的性能,必須事先收集齊該部門業(yè)務用戶的需求。數(shù)據(jù)集市中包含的歷史數(shù)據(jù)不很全,其詳細程度也不夠,數(shù)據(jù)選取的基本原則是能滿足本部門的需求。數(shù)據(jù)集市大都采用多維數(shù)據(jù)庫技術,這種技術對數(shù)據(jù)的分析而言也許是最優(yōu)的,但肯定不適合于大量數(shù)據(jù)的存儲,因為多維數(shù)據(jù)庫的數(shù)據(jù)冗余度很高。為了提高速度,對數(shù)據(jù)集市中的數(shù)據(jù)一般都建立大量的索引。換言之,數(shù)據(jù)集市中往往靠對數(shù)據(jù)的預處理來換取運行時的高速度,當業(yè)務部門提出新的問題時,如果不在原來設計的范圍內(nèi),則需要數(shù)據(jù)庫管理員對數(shù)據(jù)庫作許多調(diào)整和優(yōu)化處理。業(yè)界有兩種數(shù)據(jù)集市,即從屬數(shù)據(jù)集市和獨立數(shù)據(jù)集市。前者的數(shù)據(jù)來源于中央的數(shù)據(jù)倉庫,后者的數(shù)據(jù)則直接來源于源應用環(huán)境。所有的從屬數(shù)據(jù)集市都從屬于同一個數(shù)據(jù)倉庫,各子系統(tǒng)的數(shù)據(jù)均能保持一致,因此這種數(shù)據(jù)集市的結(jié)構(gòu)是可行的。而每個獨立數(shù)據(jù)集市都從各源生產(chǎn)系統(tǒng)中單獨提取數(shù)據(jù),無法保證數(shù)據(jù)的一致性;從長遠來看,這種結(jié)構(gòu)是不穩(wěn)定也是不可行的。圖1清楚地說明了兩者在結(jié)構(gòu)上的區(qū)別。遺憾的是,獨立數(shù)據(jù)集市的這些問題在開始往往反映不出來,企業(yè)只有在建立了多個獨立數(shù)據(jù)集市之后才能認識到其缺點。數(shù)據(jù)集市供應商們所大力宣傳的其實正是這種獨立數(shù)據(jù)集市,因此在本文的討論中,我們所指的數(shù)據(jù)集市也是獨立數(shù)據(jù)集市。0489400.JPG;圖12. 什么是數(shù)據(jù)倉庫數(shù)據(jù)倉庫與數(shù)據(jù)集市之間具有很大的差異。數(shù)據(jù)倉庫是基于整個企業(yè)的數(shù)據(jù)模型建立的,它面向企業(yè)范圍內(nèi)的主題。一般來講,數(shù)據(jù)倉庫是由一個中央的協(xié)調(diào)組織 (例如傳統(tǒng)的IT部門)來建立和管理。數(shù)據(jù)倉庫完全是整個企業(yè)共同努力的結(jié)果。某個部門的主題與企業(yè)的主題之間可能存在也可能不存在關聯(lián)。數(shù)據(jù)倉庫中存儲整個企業(yè)內(nèi)非常詳細的數(shù)據(jù),相對而言,數(shù)據(jù)集市中數(shù)據(jù)的詳細程度要低一些,相反,它包含了許多概要和累加數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)模型一般是規(guī)范的,比較多的是符合第三范式。其數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容反映的不是某個特定部門的特殊要求,它代表的是整個企業(yè)對于數(shù)據(jù)的需求。數(shù)據(jù)倉庫中的數(shù)據(jù)量與數(shù)據(jù)集市差別很大,因此,數(shù)據(jù)倉庫中的索引很少。這和傳統(tǒng)的OLTP數(shù)據(jù)庫有很大的區(qū)別。數(shù)據(jù)倉庫中包含有相對穩(wěn)定的歷史數(shù)據(jù),所有數(shù)據(jù)都是從許多操作數(shù)據(jù)源中經(jīng)一定的業(yè)務規(guī)則轉(zhuǎn)換并集中進來的。簡而言之,在數(shù)據(jù)倉庫與數(shù)據(jù)集市中,無論是數(shù)據(jù)的結(jié)構(gòu)還是其內(nèi)容都存在著顯著的差別。圖2形象地說明了這種區(qū)別。左邊的數(shù)據(jù)集市是星形連接結(jié)構(gòu),而右邊的數(shù)據(jù)倉庫是正則結(jié)構(gòu),各實體之間通過外鍵(Foreign Key)連接。0489401.JPG;圖2由于數(shù)據(jù)倉庫中的數(shù)據(jù)是詳細的、集成的和歷史的,其中的數(shù)據(jù)量一般都很大,而且隨著時間的推移,增長速度也非???。因此,建立數(shù)據(jù)倉庫最好是分步進行,否則建設周期將非常長。即使從最早的文獻來看,學術界就幾乎公認建立數(shù)據(jù)倉庫必須使最終用戶能盡快看到具體、明確的結(jié)果。直到現(xiàn)在,有關的專欄作者和咨詢顧問們還是一致認為數(shù)據(jù)倉庫的建設速度必須很快,盡量避免冗長、龐大的投資行為。當然,這并不意味著數(shù)據(jù)倉庫的投資小,正確的理解是,數(shù)據(jù)倉庫一般是從小處著手, 取得一定成效后再逐步完善。世界上許多成功的1000GB (指用戶數(shù)據(jù)量而非數(shù)據(jù)庫大小)級以上的數(shù)據(jù)倉庫在開始時的規(guī)模都不大,這就是所謂的全盤考慮,逐步完善的思想。圖3給出了建立數(shù)據(jù)倉庫的正確途徑。從圖中可以看出,數(shù)據(jù)倉庫的建設是分步進行的,每步都能取得階段性的成果,不需要等到二、三年后才能訪問數(shù)據(jù)倉庫中的信息。0489402.JPG;圖3目前,數(shù)據(jù)集市的理論是,先建立一個或多個數(shù)據(jù)集市,然后把它們集成起來,當它們增長到一定規(guī)模時就變成了數(shù)據(jù)倉庫。遺憾的是,這種理論在很多方面都站不住腳:1) 數(shù)據(jù)集市是設計用來滿足部門需求的,各部門的目標可能差別很大,這也是為什么企業(yè)內(nèi)各部門擁有結(jié)構(gòu)和特征都不同的數(shù)據(jù)集市的原因。數(shù)據(jù)倉庫則是設計用來滿足企業(yè)綜合需求的。一個設計方案可以是對一個特定部門最優(yōu)的,也可以是對一個企業(yè)最優(yōu)的,但不可能對兩者均是最優(yōu)方案。針對企業(yè)的設計目標和針對部門的差別很大。2) 數(shù)據(jù)集市與數(shù)據(jù)倉庫中數(shù)據(jù)的詳細程度也完全不同。數(shù)據(jù)集市中包含有許多概要和累計數(shù)據(jù),而數(shù)據(jù)倉庫中則包含有大量的詳細數(shù)據(jù)。顯然,你可以從詳細數(shù)據(jù)中計算出概要和累加數(shù)據(jù),但反之則不行。對業(yè)務分析而言,詳細數(shù)據(jù)在很多場合都非常重要。綜上所述,我們可以歸納出以下要點:數(shù)據(jù)集市和數(shù)據(jù)倉庫中的數(shù)據(jù)模型不同,前者一般采用星形連接結(jié)構(gòu),后者則用第三范式為主;數(shù)據(jù)集市中的歷史數(shù)據(jù)信息量比數(shù)據(jù)倉庫少很多;數(shù)據(jù)集市中的主題和數(shù)據(jù)倉庫中的主題關聯(lián)并不很多;數(shù)據(jù)集市中的關系與數(shù)據(jù)倉庫中的關系不同;數(shù)據(jù)集市中的查詢類型與數(shù)據(jù)倉庫中的查詢類型差別很大;數(shù)據(jù)集市中的用戶類型 (較低層次)和數(shù)據(jù)倉庫中的用戶類型 (較高層次)差別很大;數(shù)據(jù)集市的主要結(jié)構(gòu)與數(shù)據(jù)倉庫的主要結(jié)構(gòu)具有顯著的區(qū)別。小結(jié)數(shù)據(jù)集市與數(shù)據(jù)倉庫應用環(huán)境的差別很大,如果認為一個數(shù)據(jù)集市在增長到一定程度時能轉(zhuǎn)換成數(shù)據(jù)倉庫,那無異于說小草可以長成橡樹。雖然這兩種綠色植物在生長的某個階段具有一些相同的特征,但這并不能遮蓋兩者的區(qū)別。這畢竟是現(xiàn)實世界,數(shù)據(jù)集市與數(shù)據(jù)倉庫的道理是一樣的。- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 數(shù)據(jù)倉庫 數(shù)據(jù) 集市 概念 區(qū)別
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
相關資源
更多
正為您匹配相似的精品文檔
相關搜索
鏈接地址:http://m.italysoccerbets.com/p-6644944.html