數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)第2章.ppt
2020/4/27,1,第二章數(shù)據(jù)倉(cāng)庫(kù)的分析,主要內(nèi)容如何建立數(shù)據(jù)倉(cāng)庫(kù)的需求模型?影響數(shù)據(jù)倉(cāng)庫(kù)成功的因素有哪些?數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)各階段的任務(wù)是什么?數(shù)據(jù)倉(cāng)庫(kù)的基本體系結(jié)構(gòu)是怎樣的?數(shù)據(jù)倉(cāng)庫(kù)的邏輯結(jié)構(gòu)是怎樣的?,2020/4/27,2,1、如何建立數(shù)據(jù)倉(cāng)庫(kù)的需求模型?,是數(shù)據(jù)倉(cāng)庫(kù)的分析中首要解決的問(wèn)題,2020/4/27,3,圖2.1數(shù)據(jù)倉(cāng)庫(kù)的需求分析模型,2020/4/27,4,2、影響數(shù)據(jù)倉(cāng)庫(kù)成功的因素有哪些?,2020/4/27,5,影響因素,數(shù)據(jù)存儲(chǔ)的組織方式,決定了數(shù)據(jù)的可獲取性與有用性,進(jìn)而決定了數(shù)據(jù)的價(jià)值。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)結(jié)構(gòu)有以下要求:(P44表2.1)反映靜態(tài)數(shù)據(jù)存儲(chǔ)歷史數(shù)據(jù)在時(shí)間上是可見(jiàn)的、明確的數(shù)據(jù)的粒度是詳細(xì)的可導(dǎo)出的匯總定期的、計(jì)劃的更新支持的任務(wù)是不可預(yù)期的對(duì)數(shù)據(jù)庫(kù)的靈活性要求高,2020/4/27,6,2020/4/27,7,2020/4/27,8,3、數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)各階段的任務(wù)是什么?,2020/4/27,9,傳統(tǒng)的操作型系統(tǒng)的生命周期,SystemDevelopmentLifeCycleSDLC系統(tǒng)開(kāi)發(fā)生命周期需求驅(qū)動(dòng)的開(kāi)發(fā)生命周期,2020/4/27,10,數(shù)據(jù)倉(cāng)庫(kù)的生命周期CLDS,CLDS數(shù)據(jù)驅(qū)動(dòng)的開(kāi)發(fā)生命周期(SDLC的逆序)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)集成數(shù)據(jù)檢驗(yàn)偏差針對(duì)數(shù)據(jù)編程設(shè)計(jì)DSS系統(tǒng)分析結(jié)果和理解需求參見(jiàn)P45圖2.5,2020/4/27,11,2020/4/27,12,1.數(shù)據(jù)倉(cāng)庫(kù)計(jì)劃與準(zhǔn)備階段,用戶需求分析可行性研究用戶的認(rèn)可建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的協(xié)調(diào)與阻力分析開(kāi)發(fā)項(xiàng)目計(jì)劃制定關(guān)鍵資源管理,2020/4/27,13,(1)用戶需求分析內(nèi)容,用戶如何處理其事務(wù)如何衡量用戶的工作表現(xiàn)用戶需要什么屬性(在信息方面)應(yīng)用于這些屬性的業(yè)務(wù)層次結(jié)構(gòu)是什么用戶現(xiàn)在使用什么數(shù)據(jù),以及需要什么數(shù)據(jù)用戶需要什么水平的細(xì)節(jié)或匯總數(shù)據(jù),2020/4/27,14,2020/4/27,15,(2)可行性研究,三個(gè)重要分析技術(shù)可行性操作可行性經(jīng)濟(jì)可行性,2020/4/27,16,(3)用戶認(rèn)可(Userbuyin),重要因素用戶大力支持不可少,其與上層的支持是不同的不能完全改變決策方式,只能改變決策信息的獲取方法,改進(jìn)用戶獲取信息的方法數(shù)據(jù)倉(cāng)庫(kù)必須經(jīng)常集成其中應(yīng)用軟件的數(shù)據(jù),理解用戶的看法,2020/4/27,17,(4)建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的協(xié)調(diào)與阻力分析,2020/4/27,18,(5)開(kāi)發(fā)項(xiàng)目計(jì)劃制定,2020/4/27,19,(6)創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)所使用的關(guān)鍵資源,人才業(yè)務(wù)分析員確定和定義目的和目標(biāo)用戶群確定滿足組織戰(zhàn)略性商業(yè)目標(biāo)數(shù)據(jù)體系結(jié)構(gòu)設(shè)計(jì)師數(shù)據(jù)的采集、轉(zhuǎn)換、分配和加載定義數(shù)據(jù)模型信息系統(tǒng)服務(wù)人員最終用戶支持人員領(lǐng)導(dǎo)和管理人員項(xiàng)目領(lǐng)導(dǎo)項(xiàng)目經(jīng)理硬件軟件,2020/4/27,20,2.數(shù)據(jù)倉(cāng)庫(kù)的其他階段,2020/4/27,21,數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)分析,系統(tǒng)分析的目標(biāo)是了解當(dāng)前實(shí)際是如何工作的,以使得系統(tǒng)的操作可在將來(lái)得到改善。原型法注意:不能與其所有可操作數(shù)據(jù)源相連,數(shù)據(jù)仍然需要做數(shù)據(jù)凈化、傳送等工作開(kāi)發(fā)方法數(shù)據(jù)驅(qū)動(dòng)法應(yīng)用驅(qū)動(dòng)法,2020/4/27,22,數(shù)據(jù)驅(qū)動(dòng)方法,數(shù)據(jù)源:連續(xù)的數(shù)據(jù)源次序:自頂向下優(yōu)點(diǎn):每一個(gè)階段在技術(shù)上都很簡(jiǎn)單,只涉及一個(gè)文件或數(shù)據(jù)庫(kù)類型映射到數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)之中,每個(gè)附加數(shù)據(jù)源只有在其前面的附加數(shù)據(jù)源處理完之后才添加。缺點(diǎn):數(shù)據(jù)資源不能利落地映射到商業(yè)查詢中。,2020/4/27,23,應(yīng)用驅(qū)動(dòng)方法,數(shù)據(jù)源:來(lái)自幾個(gè)操作系統(tǒng)的數(shù)據(jù)次序:自頂向下優(yōu)點(diǎn):在第一階段就提供有用的信息缺點(diǎn):到達(dá)這一階段要花費(fèi)較長(zhǎng)的時(shí)間、并且需要的活動(dòng)很多很復(fù)雜,2020/4/27,24,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì),重點(diǎn):設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的元素,即數(shù)據(jù)庫(kù)和數(shù)據(jù)分析如何選擇數(shù)據(jù)庫(kù)體系結(jié)構(gòu)按照哪種系統(tǒng)結(jié)構(gòu)設(shè)計(jì)如何安排數(shù)據(jù)庫(kù)定義數(shù)據(jù)如何使用所有的數(shù)據(jù)源都被映射傳送到數(shù)據(jù)倉(cāng)庫(kù)描述數(shù)據(jù)倉(cāng)庫(kù)何時(shí)及時(shí)如何更新并回答程序員遇到的無(wú)數(shù)多個(gè)”我該怎么辦”,2020/4/27,25,數(shù)據(jù)倉(cāng)庫(kù)的測(cè)試,適用于順序測(cè)試確保對(duì)源文件提取記錄及字段的正確性證明傳送和凈化工作正常,對(duì)比元數(shù)據(jù),檢查數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容以確保整個(gè)加載過(guò)程有效,可能要測(cè)試有關(guān)已知誰(shuí)的回答的分析。增強(qiáng)維護(hù),增強(qiáng)用戶支持,2020/4/27,26,思考,查閱賽迪網(wǎng),閱讀和比較不同的數(shù)據(jù)倉(cāng)庫(kù)的解決方案。明確數(shù)據(jù)驅(qū)動(dòng)法與應(yīng)用驅(qū)動(dòng)法兩種方法在數(shù)據(jù)倉(cāng)庫(kù)實(shí)施中的不同表現(xiàn)。,2020/4/27,27,4、數(shù)據(jù)倉(cāng)庫(kù)的基本體系結(jié)構(gòu)是怎樣的?,2020/4/27,28,數(shù)據(jù)倉(cāng)庫(kù)基本體系結(jié)構(gòu),2020/4/27,29,數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),數(shù)據(jù)倉(cāng)庫(kù),2020/4/27,30,數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),2020/4/27,31,數(shù)據(jù)分級(jí),DataStaging提取,轉(zhuǎn)化,凈化,加載數(shù)據(jù)倉(cāng)庫(kù)不直接存儲(chǔ)事務(wù)數(shù)據(jù),提取時(shí)必須將事務(wù)數(shù)據(jù)進(jìn)行轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)和內(nèi)部格式,為了保證數(shù)據(jù)的品質(zhì),還要對(duì)數(shù)據(jù)進(jìn)行凈化,將凈化后的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中。,2020/4/27,32,ETL(提取轉(zhuǎn)換加載),數(shù)據(jù)的提取轉(zhuǎn)換加載(ETL)是用來(lái)實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成,即完成數(shù)據(jù)的抓取/抽取、清洗、轉(zhuǎn)換、加載與索引等數(shù)據(jù)調(diào)和工作。ETL是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中最重要的處理工具之一,它的主要任務(wù)是建立、維護(hù)數(shù)據(jù)倉(cāng)庫(kù),通過(guò)與操作型數(shù)據(jù)源的映像關(guān)系執(zhí)行數(shù)據(jù)提取轉(zhuǎn)換加載的任務(wù)。其中涉及各種各樣的技術(shù)和處理,比如,數(shù)據(jù)清洗及其準(zhǔn)備結(jié)構(gòu)的設(shè)計(jì)和處理、映像技術(shù)和方法、粒度的考慮,以及數(shù)據(jù)的提取、轉(zhuǎn)換、追加、加載作業(yè)控制等一系列問(wèn)題。,操作型系統(tǒng),數(shù)據(jù)倉(cāng)庫(kù),提取,集結(jié)地,清洗,轉(zhuǎn)換,加載與索引,拒絕數(shù)據(jù)的信息,有關(guān)拒絕數(shù)據(jù)的信息,2020/4/27,33,元數(shù)據(jù),元數(shù)據(jù)Metadata“有關(guān)數(shù)據(jù)的數(shù)據(jù)”“數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)是要解決何人在何時(shí)何地為了什么原因及怎樣使用數(shù)據(jù)倉(cāng)庫(kù)的問(wèn)題”??蓪?duì)數(shù)據(jù)倉(cāng)庫(kù)中的各種數(shù)據(jù)進(jìn)行詳細(xì)的描述與說(shuō)明,說(shuō)明每個(gè)數(shù)據(jù)的上下文關(guān)系,使每個(gè)數(shù)據(jù)具有符合現(xiàn)實(shí)的真實(shí)含義,使最終用戶了解這些數(shù)據(jù)之間的關(guān)系。作用:通過(guò)元數(shù)據(jù)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的管理;通過(guò)元數(shù)據(jù)來(lái)使用數(shù)據(jù)倉(cāng)庫(kù)。,2020/4/27,34,技術(shù)元數(shù)據(jù):用于對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行管理的元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和管理人員用于數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)和日常管理數(shù)據(jù)倉(cāng)庫(kù)時(shí)使用的元數(shù)據(jù)。它包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換的描述、數(shù)據(jù)倉(cāng)庫(kù)對(duì)象和數(shù)據(jù)結(jié)構(gòu)的定義、數(shù)據(jù)清理和數(shù)據(jù)更新時(shí)采用的規(guī)則、源數(shù)據(jù)到目的數(shù)據(jù)的映射、用戶訪問(wèn)權(quán)限、數(shù)據(jù)備份歷史紀(jì)錄、數(shù)據(jù)導(dǎo)入歷史紀(jì)錄、信息發(fā)布?xì)v史紀(jì)錄等。商業(yè)元數(shù)據(jù):幫助使用數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。它包括業(yè)務(wù)主題的描述,以及對(duì)所包含的數(shù)據(jù)、查詢、報(bào)表的描述,等等。,2020/4/27,35,元數(shù)據(jù)為訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)提供了一個(gè)信息目錄數(shù)據(jù)倉(cāng)庫(kù)中都有些什么數(shù)據(jù)這些數(shù)據(jù)是怎么得到的誰(shuí)在管轄怎么訪問(wèn)這些數(shù)據(jù)其他更多的信息可通過(guò)查詢工具得知元數(shù)據(jù)的有關(guān)資料元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行和維護(hù)的中心,數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器必須利用元數(shù)據(jù)來(lái)存儲(chǔ)和更新數(shù)據(jù),用戶必須通過(guò)元數(shù)據(jù)來(lái)了解和訪問(wèn)數(shù)據(jù)。,2020/4/27,36,數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù),是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的核心,是數(shù)據(jù)存放的地方,提供對(duì)數(shù)據(jù)的支持和快速檢索的支持相對(duì)于操縱型數(shù)據(jù)庫(kù)來(lái)說(shuō),其突出的特點(diǎn)是對(duì)海量數(shù)據(jù)的支持和快速的檢索技術(shù)。包含明細(xì)數(shù)據(jù)和匯總數(shù)據(jù),2020/4/27,37,查詢工具,查詢工具通常包括一個(gè)用于向數(shù)據(jù)庫(kù)提出問(wèn)題的最終用戶接口,此接口位于聯(lián)機(jī)分析處理OLAP的程序中。,2020/4/27,38,4、數(shù)據(jù)倉(cāng)庫(kù)的邏輯結(jié)構(gòu)是怎樣的?,2020/4/27,39,數(shù)據(jù)倉(cāng)庫(kù)的粒度,粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級(jí)別。,2020/4/27,40,數(shù)據(jù)倉(cāng)庫(kù)的粒度,粒度粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類就越多反之,粒度的增大將會(huì)提高查詢效率,但同時(shí)也造成回答細(xì)節(jié)問(wèn)題能力的下降。低粒度級(jí)(高細(xì)節(jié)級(jí))高粒度級(jí)(低細(xì)節(jié)級(jí))例如:電訊公司數(shù)據(jù)倉(cāng)庫(kù)中,保存一個(gè)顧客一個(gè)月內(nèi)每個(gè)電話的細(xì)節(jié)高細(xì)節(jié)級(jí),低粒度級(jí),假設(shè)有200個(gè)記錄,包含本月內(nèi)200個(gè)電話的任何信息;保存一個(gè)顧客一個(gè)月內(nèi)每天電話的匯總輕度綜合,較高粒度級(jí),只有30或31條記錄,只能回答匯總查詢的問(wèn)題。保存一個(gè)顧客一個(gè)月內(nèi)的電話的綜合低細(xì)節(jié)級(jí),高粒度級(jí),只有一條記錄。,2020/4/27,41,輕度綜合數(shù)據(jù),2020/4/27,42,數(shù)據(jù)倉(cāng)庫(kù)的粒度,雙重粒度指輕度綜合數(shù)據(jù)和真實(shí)細(xì)節(jié)數(shù)據(jù)級(jí)(最低粒度級(jí))大部分的分析數(shù)據(jù)是針對(duì)被壓縮的、存取效率高的輕度粒度級(jí)數(shù)據(jù)進(jìn)行的。需要分析更低的細(xì)節(jié)數(shù)據(jù)時(shí)才訪問(wèn)最低粒度級(jí)數(shù)據(jù)。,2020/4/27,43,2020/4/27,44,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)分割,把數(shù)據(jù)分散到各自小的物理單元中去任何給定的單元屬于一個(gè)分割數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片分割后的單元具有靈活性,能夠?qū)崿F(xiàn)重構(gòu)、索引、順序掃描、重組、恢復(fù)、監(jiān)控等,2020/4/27,45,數(shù)據(jù)分割,2020/4/27,46,2020/4/27,47,數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)組織,簡(jiǎn)單堆積結(jié)構(gòu)輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ)簡(jiǎn)單直接文件連續(xù)組織,2020/4/27,48,簡(jiǎn)單堆積結(jié)構(gòu),從操作型環(huán)境中取出每天的事務(wù)數(shù)據(jù)根據(jù)主題來(lái)綜合成數(shù)據(jù)倉(cāng)庫(kù)記錄,2020/4/27,49,輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ),只有在輪轉(zhuǎn)綜合文件中的數(shù)據(jù)才能被輸入到不同的結(jié)構(gòu)形式中,而操作型數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的數(shù)據(jù)處理方法簡(jiǎn)單的堆積結(jié)構(gòu)相同。,方式:每天進(jìn)行數(shù)據(jù)綜合,每周累加,月底將每周的數(shù)據(jù)加到一起,并放于第一個(gè)每月響應(yīng)的數(shù)據(jù)位置處,然后每周數(shù)據(jù)位置清零。到了年底,將每月數(shù)據(jù)累加,放入第一個(gè)年度響應(yīng)的數(shù)據(jù)位置處,然后每月數(shù)據(jù)位置清零。,2020/4/27,50,簡(jiǎn)單堆積與輪轉(zhuǎn)綜合的比較,2020/4/27,51,簡(jiǎn)單直接文件組織,把數(shù)據(jù)從操作型環(huán)境拖入數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,無(wú)任何累積,以較長(zhǎng)時(shí)間為單位的它是間隔一定時(shí)間的操作型數(shù)據(jù)的一個(gè)快照,2020/4/27,52,連續(xù)數(shù)據(jù)組織,依據(jù)兩個(gè)或更多的簡(jiǎn)單直接文件快照進(jìn)行合并創(chuàng)建或追加的,2020/4/27,53,快照,是為一些事件的發(fā)生而產(chǎn)生的事件的類型隨機(jī)發(fā)生的離散活動(dòng)在規(guī)定時(shí)間點(diǎn)事件觸發(fā)快照,其基本結(jié)構(gòu)由四個(gè)部分組成鍵碼(Key)時(shí)間單元(描述事件已發(fā)生或捕捉數(shù)據(jù)的時(shí)間)只和關(guān)鍵碼相關(guān)的初始數(shù)據(jù)與關(guān)鍵碼無(wú)直接關(guān)系的二次數(shù)據(jù),2020/4/27,54,課堂練習(xí),充分認(rèn)識(shí)數(shù)據(jù)倉(cāng)庫(kù)中幾個(gè)關(guān)鍵術(shù)語(yǔ),說(shuō)明它們的概念與意義ETL元數(shù)據(jù)粒度數(shù)據(jù)分割快照輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ),