歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁 裝配圖網(wǎng) > 資源分類 > DOC文檔下載  

數(shù)據(jù)倉庫模型的設(shè)計.doc

  • 資源ID:6662582       資源大?。?span id="u7urg4y" class="font-tahoma">22.50KB        全文頁數(shù):7頁
  • 資源格式: DOC        下載積分:9.9積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 微信開放平臺登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要9.9積分
郵箱/手機:
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機號,方便查詢和重復(fù)下載(系統(tǒng)自動生成)
支付方式: 支付寶    微信支付   
驗證碼:   換一換

 
賬號:
密碼:
驗證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標題沒有明確說明有答案則都視為沒有答案,請知曉。

數(shù)據(jù)倉庫模型的設(shè)計.doc

2.5數(shù)據(jù)倉庫模型的設(shè)計數(shù)據(jù)倉庫模型的設(shè)計大體上可以分為以下三個層面的設(shè)計151:.概念模型設(shè)計;.邏輯模型設(shè)計;.物理模型設(shè)計;下面就從這三個層面分別介紹數(shù)據(jù)倉庫模型的設(shè)計。2.5.1概念模型設(shè)計進行概念模型設(shè)計所要完成的工作是:<1>界定系統(tǒng)邊界<2>確定主要的主題域及其內(nèi)容概念模型設(shè)計的成果是,在原有的數(shù)據(jù)庫的基礎(chǔ)上建立了一個較為穩(wěn)固的概念模型。因為數(shù)據(jù)倉庫是對原有數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)進行集成和重組而形成的數(shù)據(jù)集合,所以數(shù)據(jù)倉庫的概念模型設(shè)計,首先要對原有數(shù)據(jù)庫系統(tǒng)加以分析理解,看在原有的數(shù)據(jù)庫系統(tǒng)中“有什么”、“怎樣組織的”和“如何分布的”等,然后再來考慮應(yīng)當(dāng)如何建立數(shù)據(jù)倉庫系統(tǒng)的概念模型。一方面,通過原有的數(shù)據(jù)庫的設(shè)計文檔以及在數(shù)據(jù)字典中的數(shù)據(jù)庫關(guān)系模式,可以對企業(yè)現(xiàn)有的數(shù)據(jù)庫中的內(nèi)容有一個完整而清晰的認識;另一方面,數(shù)據(jù)倉庫的概念模型是面向企業(yè)全局建立的,它為集成來自各個面向應(yīng)用的數(shù)據(jù)庫的數(shù)據(jù)提供了統(tǒng)一的概念視圖。概念模型的設(shè)計是在較高的抽象層次上的設(shè)計,因此建立概念模型時不用考慮具體技術(shù)條件的限制。1.界定系統(tǒng)的邊界數(shù)據(jù)倉庫是面向決策分析的數(shù)據(jù)庫,我們無法在數(shù)據(jù)倉庫設(shè)計的最初就得到詳細而明確的需求,但是一些基本的方向性的需求還是擺在了設(shè)計人員的面前:. 要做的決策類型有哪些?. 決策者感興趣的是什么問題?. 這些問題需要什么樣的信息?. 要得到這些信息需要包含原有數(shù)據(jù)庫系統(tǒng)的哪些部分的數(shù)據(jù)?這樣,我們可以劃定一個當(dāng)前的大致的系統(tǒng)邊界,集中精力進行最需要的部分的開發(fā)。因而,從某種意義上講,界定系統(tǒng)邊界的工作也可以看作是數(shù)據(jù)倉庫系統(tǒng)設(shè)計的需求分析,因為它將決策者的數(shù)據(jù)分析的需求用系統(tǒng)邊界的定義形式反映出來。2,確定主要的主題域在這一步中,要確定系統(tǒng)所包含的主題域,然后對每個主題域的內(nèi)容進行較明確數(shù)據(jù)倉庫建模技術(shù)在電信行業(yè)中的應(yīng)用的描述,描述的內(nèi)容包括:. 主題域的公共碼鍵;. 主題域之間的聯(lián)系:. 充分代表主題的屬性組。2.5.2邏輯模型設(shè)計邏輯建模是數(shù)據(jù)倉庫實施中的重要一環(huán),因為它能直接反映出業(yè)務(wù)部門的需求,同時對系統(tǒng)的物理實施有著重要的指導(dǎo)作用。在這一步里進行的工作主要有:. 分析主題域,確定當(dāng)前要裝載的主題;. 確定粒度層次劃分;. 確定數(shù)據(jù)分割策略;. 關(guān)系模式定義;. 記錄系統(tǒng)定義邏輯模型設(shè)計的成果是,對每個當(dāng)前要裝載的主題的邏輯實現(xiàn)進行定義,并將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中,包括:. 適當(dāng)?shù)牧6葎澐?. 合理的數(shù)據(jù)分割策略;. 適當(dāng)?shù)谋韯澐?. 定義合適的數(shù)據(jù)來源等。I.分析主題域在概念模型設(shè)計中,我們確定了幾個基本的主題域,但是,數(shù)據(jù)倉庫的設(shè)計方法是一個逐步求精的過程,在進行設(shè)計時,一般是一次一個主題或一次若干個主題地逐步完成的。所以,我們必須對概念模型設(shè)計步驟中確定的幾個基本主題域進行分析,一并選擇首先要實施的主題域。選擇第一個主題域所要考慮的是它要足夠大,以便使得該主題域能建設(shè)成為一個可應(yīng)用的系統(tǒng);它還要足夠小,以便于開發(fā)和較快地實施。如果所選擇的主題域很大并且很復(fù)雜,我們甚至可以針對它的一個有意義的子集來進行開發(fā)。在每一次的反饋過程中,都要進行主題域的分析。z.粒度層次劃分數(shù)據(jù)倉庫邏輯設(shè)計中要解決的一個重要問題是決定數(shù)據(jù)倉庫的粒度劃分層次,粒度層次劃分適當(dāng)與否直接影響到數(shù)據(jù)倉庫中的數(shù)據(jù)量和所適合的查詢類型。確定數(shù)據(jù)倉庫的粒度劃分,可以使用在粒度劃分一節(jié)中介紹的方法,通過估算數(shù)據(jù)行數(shù)和所需的DASD數(shù),來確定是采用單一粒度還是多重粒度,以及粒度劃分的層次。3.確定數(shù)據(jù)分割策略在這一步里,要選擇適當(dāng)?shù)臄?shù)據(jù)分割的標準,一般要考慮以下幾方面因素:數(shù)據(jù)量而非記錄行數(shù))、數(shù)據(jù)分析處理的實際情況、簡單易行以及粒度劃分策略等。數(shù)據(jù)量的大小是決定是否進行數(shù)據(jù)分割和如何分割的主要因素;數(shù)據(jù)分析處理的要求是選擇數(shù)據(jù)分割標準的一個主要依據(jù),因為數(shù)據(jù)分割是跟數(shù)據(jù)分析處理的對象緊密聯(lián)系的;我們還要考慮到所選擇的數(shù)據(jù)分割標準應(yīng)是自然的、易于實施的:同時也要考慮數(shù)據(jù)分割的標準與粒度劃分層次是適應(yīng)的。4.關(guān)系模式定義數(shù)據(jù)倉庫的每個主題都是由多個表來實現(xiàn)的,這些表之間依靠主題的公共碼鍵聯(lián)系在一起,形成一個完整的主題。在概念模型設(shè)計時,我們就確定了數(shù)據(jù)倉庫的基本主題,并對每個主題的公共碼鍵、基本內(nèi)容等做了描述在這一步里,我們將要對選定_的當(dāng)前實施的主題進行模式劃分,形成多個表,并確定各個表的關(guān)系模式。用關(guān)系型數(shù)據(jù)庫來實現(xiàn)數(shù)據(jù)倉庫信息模型時,目前較常用的兩種建模方法是所謂的第三范式(3NF,即Third Normal Form)和星型模式Star-Schem司,我們將重點討論兩種方法的特點和它們在數(shù)據(jù)倉庫系統(tǒng)中的適用場合。4.1什么是第三范式范式是數(shù)據(jù)庫邏輯模型設(shè)計的基本理論,一個關(guān)系模型可以從第一范式到第五范式進行無損分解,這個過程也稱為規(guī)范化(Normalize)。在數(shù)據(jù)倉庫的模型設(shè)計中目前一般采用第三范式,它有非常嚴格的數(shù)學(xué)定義。如果從其表達的含義來看,一個符合第三范式的關(guān)系必須具有以下三個條件:1.每個屬性的值唯一,不具有多義性;2.每個非主屬性必須完全依賴于整個主鍵,而非主鍵的一部分;3.每個非主屬性不能依賴于其他關(guān)系中的屬性,團為這樣的話,這種屬性應(yīng)該歸到其他關(guān)系中去。我們可以看到,第三范式的定義基本上是圍繞主鍵與非主屬性之間的關(guān)系而作出的。如果只滿足第一個條件,則稱為第一范式;如果滿足前面兩個條件,則稱為第二范式,依此類推。因此,各級范式是向下兼容的。4.2什么是星型模式星型模式是一種多維的數(shù)據(jù)關(guān)系,它由一個事實表(Fact Table)和一組維表(Dimension Table)組成。每個維表都有一個維作為主鍵,所有這些維則組合成事實表的主鍵,換言之,事實表主鍵的每個元素都是維表的外鍵。事實表的非主屬性稱為事實(Fact),它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù);而維大都是文字、時間等類型的數(shù)據(jù)。與星型模式類似還有一種業(yè)界提的比較多的設(shè)計方式是雪花模式,它也是一種在關(guān)系數(shù)據(jù)庫中實現(xiàn)多維數(shù)據(jù)關(guān)系的方式,與星型模式相區(qū)別的是它的維表結(jié)構(gòu)與星型模式不同。星型模式中同一維度的不同層次位于一張維表中,維表由唯一主鍵和事實表關(guān)連;雪花模式中同一維度中的不同層次位于不同的層次表中,最低層次表與事實表關(guān)連,各個層次再分別和比自己高一級的層次表關(guān)連。因為星型模式查詢效率要比雪花模式高的多,所以比較多的是采用星型模式設(shè)計多維數(shù)據(jù)關(guān)系。4. 3第三范式和星型模式在數(shù)據(jù)倉庫中的應(yīng)用大多數(shù)人在設(shè)計中央數(shù)據(jù)倉庫的邏輯模型時,都按照第三范式來設(shè)計;而在進行物理實施時,則由于數(shù)據(jù)庫引擎的限制,不得不對邏輯模型進行不規(guī)范處理(De-Normalize),以提高系統(tǒng)的響應(yīng)速度,這當(dāng)然是以增加系統(tǒng)的復(fù)雜度、維護工作量、磁盤使用比率(指原始數(shù)據(jù)與磁盤大小的比率)并降低系統(tǒng)執(zhí)行動態(tài)查詢能力為代價的。根據(jù)數(shù)據(jù)倉庫的測試標準TPC-D規(guī)范,在數(shù)據(jù)倉庫系統(tǒng)中,對數(shù)據(jù)庫引擎最大的挑戰(zhàn)主要是這樣幾種操作:多表連接、表的累計、數(shù)據(jù)排序、大量數(shù)據(jù)的掃描。下面列出了一些DBMS在實際系統(tǒng)中針對這些困難所采用的折衷處理辦法:1、如何避免多表連接:在設(shè)計模型時對表進行合并,即所謂的預(yù)連接(Pre-Join)。當(dāng)數(shù)據(jù)規(guī)模小時,也可以采用星型模式,這樣能提高系統(tǒng)速度,但增加了數(shù)據(jù)冗余量。2、如何避免表的累計:在模型中增加有關(guān)小計數(shù)據(jù)(Summarized Data)的項。這樣也增加了數(shù)據(jù)冗余,而且如果某項問題不在預(yù)建的累計項內(nèi),需臨時調(diào)整。3、如何避免數(shù)據(jù)排序:對數(shù)據(jù)事先排序。但隨著數(shù)據(jù)倉庫系統(tǒng)的運行,不斷有新的數(shù)據(jù)加入,數(shù)據(jù)庫管理員的工作將大大增加。大量的時間將用于對系統(tǒng)的整理,系統(tǒng)的可用性隨之降低。4、如何避免大表掃描:通過使用大量的索引,可以避免對大量數(shù)據(jù)進行掃描。但這也將增加系統(tǒng)的復(fù)雜程度,降低系統(tǒng)進行動態(tài)查詢的能力。這些措施大都屬于不規(guī)范處理。根據(jù)上面的討論,當(dāng)把規(guī)范的系統(tǒng)邏輯模型進行物理實施時,由于數(shù)據(jù)庫引擎的限制,常常需要進行不規(guī)范處理。舉例來說,當(dāng)系統(tǒng)數(shù)據(jù)量很小,比如只有幾個GB時,進行多表連接之類復(fù)雜查詢的響應(yīng)時間是可以忍受的。但是設(shè)想一下加果數(shù)據(jù)量擴展到很大,到幾百GB,甚至上TB,一個表中的記錄往往有幾百萬、幾千萬,甚至更多,這時進行多表連接這樣的復(fù)雜查詢,響應(yīng)時間長得不可忍受。這時就有必要把幾個表合并,盡量減少表的連接操作。當(dāng)然,不規(guī)范處理的程度取決于數(shù)據(jù)庫引擎的并行處理能力。數(shù)據(jù)倉庫建設(shè)者在選擇數(shù)據(jù)庫引擎時,除了參考一些相關(guān)的基準測試結(jié)果外,最好是能根據(jù)自己的實際情況設(shè)計測試方案,從幾個數(shù)據(jù)庫系統(tǒng)中選擇最適合自己企業(yè)決策要求的一種。不規(guī)范化處理雖然是提高系統(tǒng)性能的一種有效手段,但是由于中央數(shù)據(jù)倉庫的數(shù)據(jù)模型反映了整個企業(yè)的業(yè)務(wù)運行規(guī)律,在這里進行不規(guī)范處理容易影響整個系統(tǒng),不利于今后的擴展。而且不規(guī)范處理產(chǎn)生的數(shù)據(jù)冗余將使整個系統(tǒng)的數(shù)據(jù)量迅速增加,這將增加DBA的工作量和系統(tǒng)投資。因此,當(dāng)系統(tǒng)性能下降而進行不規(guī)范處理時,比較好的辦法是選擇問題較集中的部門數(shù)據(jù)集市實施這種措施。這樣既能有效地改善系統(tǒng)性能漢不至于影響整個系統(tǒng)。在國外一些成功的大型企業(yè)級數(shù)據(jù)倉庫案例中,基本上都是采用這種方法。那么,在中央數(shù)據(jù)倉庫中是否可以采用星型模式來進行模型設(shè)計呢?我們知道,星型模式中有一個事實表和一組維表,我們可以把事實看成是各個維交叉點上的值。例如,一個汽車廠在研究其銷售情況時可以考察汽車的型號、顏色、代理商等多種因素,這些因素就是維,而銷售量就是事實。這種多維模型能迅速給出基于各個維的報表,這些維必須事先確定。星型模式之所以速度快,在于針對各個維作了大量的預(yù)處理,如按照維進行預(yù)先的統(tǒng)計、分類、排序等。在上面的例子中,就是按照汽車的型號、顏色、代理商進行預(yù)先的銷售量統(tǒng)計。因此,在星型模式設(shè)計的數(shù)據(jù)倉庫中,作報表的速度雖然很快,但由于存在大量的預(yù)處理,其建模過程相對來說就比較慢。當(dāng)業(yè)務(wù)問題發(fā)生變化,原來的維不能滿足要求時,需要增加新的維。由于事實表的主鍵由所有維表的主鍵組成,這種維的變動將是非常復(fù)雜、非常耗時的。星型模式另一個顯著的缺點是數(shù)據(jù)的冗余量很大。綜合這些討論,不難得出結(jié)論,星型模式比較適合于預(yù)先定義好的問題加需要產(chǎn)生大量報表的場合;而不適合于動態(tài)查詢多、系統(tǒng)可擴展能力要求高或者數(shù)據(jù)量很大的場合。因此,星型模式在一些要求大量報表的部門數(shù)據(jù)集市中有較多的應(yīng)用。4. 4兩種模式的比較上面討論了數(shù)據(jù)倉庫邏輯模型設(shè)計中常用的兩種方法.在數(shù)據(jù)倉庫的應(yīng)用環(huán)境中,主要有兩種負載:一種是回答重復(fù)性的問題;另一種是回答交互性的問題。動態(tài)查詢具有較明顯的交互性特征,即在一個問題答案的基礎(chǔ)上進行進一步的探索,這種交互過程常稱為數(shù)據(jù)挖掘(Data Mining)或者知識探索(Knowledge Discovery)。對于以第一種負載為主的部門數(shù)據(jù)集市,當(dāng)數(shù)據(jù)量不大、報表較固定時可以采用星型模式;對于中央數(shù)據(jù)倉庫,考慮到系統(tǒng)的可擴展能力、投資成本和易于管理等多種因素,最好采用第三范式。或者說對于數(shù)據(jù)倉庫中當(dāng)前詳細級別的數(shù)據(jù)和輕度綜合的數(shù)據(jù)可以采用第三范式的方式設(shè)計,對于高度綜合的數(shù)據(jù)可以采用星型模式設(shè)計。2.5.3物理模型設(shè)計這一步所做的工作是確定數(shù)據(jù)的存儲結(jié)構(gòu),確定索引策略,確定數(shù)據(jù)存放位置,確定存儲分配。確定數(shù)據(jù)倉庫實現(xiàn)的物理模型,要求設(shè)計人員必須做到以下幾方面:要全面了解所選用的數(shù)據(jù)庫管理系統(tǒng),特別是存儲結(jié)構(gòu)和存取方法。了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻度、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時間要求等,這些是對時間和空間效率進行平衡和優(yōu)化的重要依據(jù)。. 了解外部存儲設(shè)備的特性,如分塊原則,塊大小的規(guī)定,設(shè)備的I/o特性等。1.確定數(shù)據(jù)的存儲結(jié)構(gòu)一個數(shù)據(jù)庫管理系統(tǒng)往往都提供多種存儲結(jié)構(gòu)供設(shè)計人員選用,不同的存儲結(jié)構(gòu)有不同的實現(xiàn)方式,各有各的適用范圍和優(yōu)缺點,設(shè)計人員在選擇合適的存儲結(jié)構(gòu)時應(yīng)該權(quán)衡三個方面的主要因素:存取時間、存儲空間利用率和維護代價。2.確定索引策略數(shù)據(jù)倉庫的數(shù)據(jù)量很大,因而需要對數(shù)據(jù)的存取路徑進行仔細的設(shè)計和選擇。由于數(shù)據(jù)倉庫的數(shù)據(jù)都是不常更新的,因而可以設(shè)計多種多樣的索引結(jié)構(gòu)來提高數(shù)據(jù)存取效率。在數(shù)據(jù)倉庫中,設(shè)計人員可以考慮對各個數(shù)據(jù)存儲建立專用的、復(fù)雜的索引,以獲得最高的存取效率,因為在數(shù)據(jù)倉庫中的數(shù)據(jù)是不常更新的,也就是說每個數(shù)據(jù)存儲是穩(wěn)定的,因而雖然建立專用的、復(fù)雜的索引有一定的代價,但一旦建立就幾乎不需維護索引的代價。3.確定數(shù)據(jù)存放位置我們說過,同一個主題的數(shù)據(jù)并不要求存放在相同的介質(zhì)上。在物理設(shè)計時,我們常常要按數(shù)據(jù)的重要程度、使用頻率以及對響應(yīng)時間的要求進行分類,并將不同類的數(shù)據(jù)分別存儲在不同的存儲設(shè)備中。重要程度高、經(jīng)常存取并對響應(yīng)時間要求高的數(shù)據(jù)就存放在高速存儲設(shè)備上,如硬盤;存取頻率低或?qū)Υ嫒№憫?yīng)時間要求低的數(shù)據(jù)則可以放在低速存儲設(shè)備上,如磁盤或磁帶。數(shù)據(jù)存放位置的確定還要考慮到其它一些方法,如:決定是否進行合并表;是否對一些經(jīng)常性的應(yīng)用建立數(shù)據(jù)序列;對常用的、不常修改的表或?qū)傩允欠袢哂啻鎯?。如果采用了這些技術(shù),就要記入元數(shù)據(jù)。4.確定存儲分配許多數(shù)據(jù)庫管理系統(tǒng)提供了一些存儲分配的參數(shù)供設(shè)計者進行物理優(yōu)化處理,如:塊的尺寸、緩沖區(qū)的大小和個數(shù)等等,它們都要在物理設(shè)計時確定。這同創(chuàng)建數(shù)據(jù)庫系統(tǒng)時的考慮是一樣的。

注意事項

本文(數(shù)據(jù)倉庫模型的設(shè)計.doc)為本站會員(xin****828)主動上傳,裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng)(點擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因為網(wǎng)速或其他原因下載失敗請重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!