《數(shù)據(jù)倉(cāng)庫(kù)原理、設(shè)計(jì)與應(yīng)用》教案-第1章.ppt
第1章數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述,隨著信息技術(shù)的不斷推廣和應(yīng)用,許多企業(yè)都已經(jīng)在使用管理信息系統(tǒng)處理管理事務(wù)和日常業(yè)務(wù)。這些管理信息系統(tǒng)為企業(yè)積累了大量的信息。企業(yè)管理者開始考慮如何利用這些信息海洋對(duì)企業(yè)的管理決策提供支持。因此,產(chǎn)生了與傳統(tǒng)數(shù)據(jù)庫(kù)有很大差異的數(shù)據(jù)環(huán)境要求和從這些海洋數(shù)據(jù)中獲取特殊知識(shí)的工具需要。 本章目標(biāo): (1)了解數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展與展望 。 (2) 理解數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)和參照結(jié)構(gòu)。 (3) 初步了解數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)挖掘技術(shù)與工具 。 (4) 掌握數(shù)據(jù)挖掘的應(yīng)用 。,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述,1.1數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展與展望 1.2數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu) 1.3數(shù)據(jù)倉(cāng)庫(kù)的參照結(jié)構(gòu) 1.4數(shù)據(jù)挖掘技術(shù)概述 1.5數(shù)據(jù)挖掘技術(shù)與工具 1.6數(shù)據(jù)挖掘的應(yīng)用 練 習(xí),1.1數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展與展望,1.1.1從傳統(tǒng)數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù) 隨著市場(chǎng)競(jìng)爭(zhēng)的加劇,信息系統(tǒng)的用戶已經(jīng)不滿足于僅僅用計(jì)算機(jī)去處理每天所發(fā)生的事務(wù)數(shù)據(jù),而是需要信息能夠支持決策的信息,去幫助管理決策。這就需要一種能夠?qū)⑷粘I(yè)務(wù)處理中所收集到的各種數(shù)據(jù)轉(zhuǎn)變?yōu)榫哂猩虡I(yè)價(jià)值信息的技術(shù),傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)無(wú)法承擔(dān)這一責(zé)任。因?yàn)閭鹘y(tǒng)數(shù)據(jù)庫(kù)的處理方式和決策分析中的數(shù)據(jù)需求不相稱。這些不相稱性主要表現(xiàn)在決策處理中的系統(tǒng)響應(yīng)問(wèn)題、決策數(shù)據(jù)需求的問(wèn)題和決策數(shù)據(jù)操作的問(wèn)題。,1.1數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展與展望,1.決策處理的系統(tǒng)響應(yīng)問(wèn)題 2.決策數(shù)據(jù)需求的問(wèn)題 3.決策數(shù)據(jù)操作的問(wèn)題 4.數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的對(duì)比,1.1數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展與展望,定義: “一個(gè)面向主題的、集成的、隨時(shí)間變化的、非易失性數(shù)據(jù)的集合,用于支持管理層的決策過(guò)程”。 特性: 面向主題性 數(shù)據(jù)集成性 數(shù)據(jù)的時(shí)變性 數(shù)據(jù)的非易失性 數(shù)據(jù)的集合性 支持決策作用。,1.1.2 數(shù)據(jù)倉(cāng)庫(kù)的定義與基本特性,1.1.3 數(shù)據(jù)倉(cāng)庫(kù)的未來(lái)發(fā)展 基于關(guān)系對(duì)象數(shù)據(jù)庫(kù)的數(shù)據(jù)倉(cāng)庫(kù) 網(wǎng)絡(luò)的影響 操作型數(shù)據(jù)倉(cāng)庫(kù)要求 Web中的代理技術(shù),1.2 數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu),1.2.1 數(shù)據(jù)倉(cāng)庫(kù)的概念結(jié)構(gòu) 從數(shù)據(jù)倉(cāng)庫(kù)的概念結(jié)構(gòu)看,應(yīng)該包含:數(shù)據(jù)源、數(shù)據(jù)準(zhǔn)備區(qū)、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)、數(shù)據(jù)集市/知識(shí)挖掘庫(kù)以及各種管理工具和應(yīng)用工具。,1.2.2 虛擬數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) 虛擬數(shù)據(jù)倉(cāng)庫(kù)利用描述了業(yè)務(wù)系統(tǒng)中數(shù)據(jù)位置和抽取數(shù)據(jù)算法的元數(shù)據(jù)直接從業(yè)務(wù)系統(tǒng)中抽取查詢的數(shù)據(jù)進(jìn)行概括、聚合操作后,將最終結(jié)果提供給用戶,1.2.3 數(shù)據(jù)集市結(jié)構(gòu) 數(shù)據(jù)集市結(jié)構(gòu)或稱為主題結(jié)構(gòu)的數(shù)據(jù)倉(cāng)庫(kù)是按照主題進(jìn)行構(gòu)思所形成的數(shù)據(jù)倉(cāng)庫(kù),沒(méi)有一個(gè)獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)。系統(tǒng)的數(shù)據(jù)不存儲(chǔ)在同一數(shù)據(jù)倉(cāng)庫(kù)中,每個(gè)主題有自己的物理存儲(chǔ)區(qū)。,1.2.4 單一數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) 將所有的主題都集中到一個(gè)大型數(shù)據(jù)庫(kù)中的體系結(jié)構(gòu)。數(shù)據(jù)源中數(shù)據(jù)被按照同一標(biāo)準(zhǔn)抽取到獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)中,用戶在使用時(shí)再根據(jù)主題將數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)發(fā)布到數(shù)據(jù)集市中。,1.2.5 分布式數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) 在企業(yè)各個(gè)分公司具有相當(dāng)大的獨(dú)立性時(shí),企業(yè)總部設(shè)置一個(gè)全局?jǐn)?shù)據(jù)倉(cāng)庫(kù),各個(gè)分公司設(shè)置各自的局部數(shù)據(jù)倉(cāng)庫(kù)。局部數(shù)據(jù)倉(cāng)庫(kù)主要存儲(chǔ)各自的未經(jīng)轉(zhuǎn)換的細(xì)節(jié)數(shù)據(jù),全局?jǐn)?shù)據(jù)倉(cāng)庫(kù)中主要存儲(chǔ)經(jīng)過(guò)轉(zhuǎn)換的綜合數(shù)據(jù),站點(diǎn)A 站點(diǎn)B 站點(diǎn)C 站點(diǎn)D,全局?jǐn)?shù)據(jù)倉(cāng)庫(kù),總部,1.3數(shù)據(jù)倉(cāng)庫(kù)的參照結(jié)構(gòu),數(shù)據(jù)倉(cāng)庫(kù)的基本功能包含:數(shù)據(jù)抽取,數(shù)據(jù)篩選、清理,清理后的數(shù)據(jù)加載,設(shè)立數(shù)據(jù)集市,完成數(shù)據(jù)倉(cāng)庫(kù)的查詢、決策分析和知識(shí)的挖掘等操作。 數(shù)據(jù)倉(cāng)庫(kù)的管理層分成數(shù)據(jù)管理與元數(shù)據(jù)管理兩部分,主要負(fù)責(zé)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)抽取、清理、加載、更新與刷新等操作進(jìn)行管理。 數(shù)據(jù)倉(cāng)庫(kù)環(huán)境支持層包含數(shù)據(jù)傳輸和數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)兩部分。,1.3.1 數(shù)據(jù)倉(cāng)庫(kù)基本功能層,數(shù)據(jù)來(lái)源主要包含:業(yè)務(wù)數(shù)據(jù)、歷史數(shù)據(jù)、辦公數(shù)據(jù)、Web數(shù)據(jù)、外部數(shù)據(jù)以及數(shù)據(jù)源元數(shù)據(jù) 數(shù)據(jù)準(zhǔn)備區(qū)的功能結(jié)構(gòu)部分由數(shù)據(jù)標(biāo)準(zhǔn)化處理、數(shù)據(jù)的過(guò)濾與匹配、數(shù)據(jù)的凈化處理、標(biāo)明數(shù)據(jù)的時(shí)間戳、確認(rèn)數(shù)據(jù)質(zhì)量與元數(shù)據(jù)抽取和創(chuàng)建等操作組成 數(shù)據(jù)倉(cāng)庫(kù)的功能結(jié)構(gòu)部分由數(shù)據(jù)重整和數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建以及元數(shù)據(jù)管理組成 數(shù)據(jù)集市/知識(shí)挖掘庫(kù)的功能結(jié)構(gòu)與數(shù)據(jù)倉(cāng)庫(kù)的功能結(jié)構(gòu)極為相似 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存取與使用結(jié)構(gòu)主要為數(shù)據(jù)倉(cāng)庫(kù)的最終用戶提供進(jìn)行決策分析和挖掘知識(shí)的功能。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存取與使用結(jié)構(gòu)應(yīng)該包含數(shù)據(jù)倉(cāng)庫(kù)存取與檢索、元數(shù)據(jù)管理以及數(shù)據(jù)倉(cāng)庫(kù)分析與報(bào)告,1.3.2 數(shù)據(jù)倉(cāng)庫(kù)的管理層,數(shù)據(jù)管理層中的數(shù)據(jù)抽取、新數(shù)據(jù)需求與查詢管理主要負(fù)責(zé)完成從數(shù)據(jù)源中抽取數(shù)據(jù)的管理。 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)加載、存儲(chǔ)、刷新和更新系統(tǒng)則負(fù)責(zé)對(duì)從數(shù)據(jù)源中所抽取的數(shù)據(jù)在完成篩選、凈化處理以后,將這些數(shù)據(jù)加載、存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中;捕獲數(shù)據(jù)源中的數(shù)據(jù)變化,用最新數(shù)據(jù)充實(shí)數(shù)據(jù)倉(cāng)庫(kù);根據(jù)用戶的需求和數(shù)據(jù)倉(cāng)庫(kù)管理的要求對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行更新等工作。 安全性與用戶授權(quán)管理系統(tǒng)主要負(fù)責(zé)數(shù)據(jù)倉(cāng)庫(kù)的安全管理工作。 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)歸檔、恢復(fù)及凈化系統(tǒng)主要負(fù)責(zé)定期對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行歸檔、備份。凈化系統(tǒng)則負(fù)責(zé)對(duì)從數(shù)據(jù)源所抽取的數(shù)據(jù)進(jìn)行數(shù)據(jù)的篩選、數(shù)據(jù)標(biāo)準(zhǔn)的統(tǒng)一、數(shù)據(jù)內(nèi)容的統(tǒng)一等各種求精、重整凈化工作的管理。,1.3.3 數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)管理層,負(fù)責(zé)管理數(shù)據(jù)倉(cāng)庫(kù)所使用的元數(shù)據(jù),其中包括: 數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市/知識(shí)挖掘庫(kù)和詞匯表管理 元數(shù)據(jù)抽取、創(chuàng)建、存儲(chǔ)和更新管理 預(yù)定義的查詢和報(bào)表以及索引管理 刷新與復(fù)制管理,登錄、歸檔、恢復(fù)與凈化管理,1.3.4 數(shù)據(jù)倉(cāng)庫(kù)的環(huán)境支持層,數(shù)據(jù)傳輸層包含了: 數(shù)據(jù)傳輸和傳送網(wǎng)絡(luò) 客戶/服務(wù)器代理和中間件 復(fù)制系統(tǒng) 數(shù)據(jù)傳輸?shù)陌踩U舷到y(tǒng),1.4數(shù)據(jù)挖掘技術(shù)概述,1.4.1 數(shù)據(jù)挖掘的發(fā)展 在促進(jìn)數(shù)據(jù)挖掘誕生、發(fā)展和應(yīng)用的眾多原因中主要有: 超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn) 先進(jìn)的計(jì)算機(jī)技術(shù) 經(jīng)營(yíng)管理的實(shí)際需要 數(shù)據(jù)的精深計(jì)算能力。,1.4.2 數(shù)據(jù)挖掘的定義 從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù)中,提取隱含在其中的、人們所不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。 從商業(yè)應(yīng)用角度看,數(shù)據(jù)挖掘是一種嶄新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)化、分析和模式化處理,從中提取輔助商業(yè)決策的關(guān)鍵知識(shí)。,數(shù)據(jù)挖掘工具與傳統(tǒng)數(shù)據(jù)分析工具的比較,1.5 數(shù)據(jù)挖掘技術(shù)與工具,1.5.1 常用數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘的發(fā)展受到數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化技術(shù)、信息技術(shù)以及其它學(xué)科的影響,例如神經(jīng)網(wǎng)絡(luò)、模糊/粗糙集理論、知識(shí)表示、歸納技術(shù)與高性能計(jì)算等。 從常用的數(shù)據(jù)挖掘技術(shù)來(lái)看可以分成三大類: 傳統(tǒng)分析類 知識(shí)發(fā)現(xiàn)類 其它最新發(fā)展的一些數(shù)據(jù)挖掘技術(shù)。,1.5.2 常用數(shù)據(jù)挖掘工具,數(shù)據(jù)挖掘工具按照使用方式,可以分成:決策方案生成工具、商業(yè)分析工具和研究分析工具三大類。 按照數(shù)據(jù)挖掘的技術(shù)可以分成:基于神經(jīng)網(wǎng)絡(luò)的工具、基于規(guī)則和決策樹的工具、基于模糊邏輯的工具和綜合性數(shù)據(jù)挖掘工具等。 按照數(shù)據(jù)挖掘的應(yīng)用范圍可以將挖掘工具分成專用型數(shù)據(jù)挖掘工具和通用型數(shù)據(jù)挖掘工具。,1.5.3 數(shù)據(jù)挖掘工具的評(píng)價(jià)標(biāo)準(zhǔn),模式種類的數(shù)量 解決復(fù)雜問(wèn)題的能力 操作性能 數(shù)據(jù)獲取能力 挖掘結(jié)果的輸出 噪聲數(shù)據(jù)的處理及挖掘工具的魯棒性,1.5.4 常用數(shù)據(jù)挖掘工具選擇,1.6 數(shù)據(jù)挖掘的應(yīng)用,1.6.1 數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù) 大多數(shù)數(shù)據(jù)挖掘工具需要在集成的、一致的、經(jīng)過(guò)清理的數(shù)據(jù)上進(jìn)行挖掘。 數(shù)據(jù)挖掘過(guò)程中所需要的數(shù)據(jù)處理與分析工具完全可以在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)處理與數(shù)據(jù)分析工具中找到, 數(shù)據(jù)倉(cāng)庫(kù)中的OLAP完全可以為數(shù)據(jù)挖掘提供有關(guān)的數(shù)據(jù)操作支持 數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用,正好彌補(bǔ)了數(shù)據(jù)倉(cāng)庫(kù)只能提供大量數(shù)據(jù),而無(wú)法進(jìn)行深度信息分析的缺陷。,1.6.2 數(shù)據(jù)挖掘過(guò)程,確定挖掘?qū)ο?準(zhǔn)備數(shù)據(jù) 建立模型 數(shù)據(jù)挖掘 結(jié)果分析 知識(shí)應(yīng)用階段,業(yè)務(wù)對(duì)象,源數(shù)據(jù),集成數(shù)據(jù),目標(biāo)數(shù)據(jù),預(yù)處理數(shù)據(jù),商業(yè)模式,知識(shí),應(yīng)用方案,業(yè)務(wù)分析人員 數(shù)據(jù)分析人員 數(shù)據(jù)管理人員,1.6.3 數(shù)據(jù)挖掘的用戶,練 習(xí),1.為什么不能依靠傳統(tǒng)的業(yè)務(wù)處理系統(tǒng)進(jìn)行決策分析? 2.在將數(shù)據(jù)源中的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)之前需要完成那些工作?為什么要進(jìn)行這些工作? 3.如果創(chuàng)建一個(gè)數(shù)據(jù)倉(cāng)庫(kù),主要是分析關(guān)于客戶的人口統(tǒng)計(jì)(收入、家庭人口、家庭位置、愛好等)。數(shù)據(jù)倉(cāng)庫(kù)的目的在于將特定的產(chǎn)品推銷給合適的潛在客戶群。這個(gè)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該從哪些地方獲取數(shù)據(jù)源,數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)應(yīng)該包含哪些部分。,4.從數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)的關(guān)系來(lái)討論什么是數(shù)據(jù)挖掘? 5.在數(shù)據(jù)挖掘過(guò)程中需要涉及到哪些過(guò)程? 6.在現(xiàn)實(shí)中有哪些人需要使用數(shù)據(jù)挖掘技術(shù)來(lái)幫助他的工作?,