數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與信息管理ppt課件
《數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與信息管理ppt課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘與信息管理ppt課件(37頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
數(shù)據(jù)挖掘技術(shù),1,前言,學(xué)習(xí)目的和方向 數(shù)據(jù)倉(cāng)庫(kù)-新型的信息管理手段 數(shù)據(jù)挖掘-新型的信息分析技術(shù) 基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘更加有效,2,教材 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘 蘇新寧、楊建林等編著,清華大學(xué)出版社,2006 參考書 數(shù)據(jù)挖掘:概念與技術(shù),[加]韓家煒 坎伯(Kamber,M.)著 范明等譯 微軟公司核心技術(shù)書庫(kù) SQL Server 2000數(shù)據(jù)挖掘技術(shù)指南,[美]希德曼(Seidman,C.)著 劉藝 等譯 數(shù)據(jù)挖掘原理, [英]漢德(Hand,D.)著 張銀奎等譯,前言,3,參考書 數(shù)據(jù)倉(cāng)庫(kù)原理與實(shí)踐,林宇等編著 數(shù)據(jù)倉(cāng)庫(kù)中的決策支持,瑞 Gray 沃森 Watson Oracle9i數(shù)據(jù)倉(cāng)庫(kù)分析、構(gòu)建實(shí)用指南,飛思科技產(chǎn)品研發(fā)中心編著 數(shù)據(jù)挖掘討論組,前言,4,主要內(nèi)容,第1章 數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘與信息管理 第2章 數(shù)據(jù)挖掘的功能、過程與方法 第3章 數(shù)據(jù)庫(kù)挖掘 第4章 文本挖掘 第5章 Web挖掘 第6章 數(shù)據(jù)挖掘應(yīng)用 第7章 數(shù)據(jù)挖掘軟件發(fā)展分析,5,第1章 數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘與信息管理,,6,數(shù)據(jù)倉(cāng)庫(kù)的起源,數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)是信息資源管理的兩種手段 企業(yè)用戶信息的需求有了新的變化,傳統(tǒng)的數(shù)據(jù)庫(kù)很難勝任這方面的要求 數(shù)據(jù)倉(cāng)庫(kù)可以很好地滿足這方面的要求,7,1.1 企業(yè)信息用戶關(guān)心的新問題,一般來說,用戶關(guān)心下列問題: 可訪問性 即用戶能否得到他所需要的信息(例,教室占用率); 及時(shí)性 即用戶得到信息需要等多長(zhǎng)時(shí)間(例,地質(zhì)模擬,算最佳注水溫度、礦物濃度); 格式 即用戶能否用電子表格、圖形、地圖或其他分析工具來操縱他所得到數(shù)據(jù)、能否得到報(bào)表形式的數(shù)據(jù); 完整性 即用戶得到的數(shù)據(jù)是否可信(從不完整的數(shù)據(jù)中得出的結(jié)論可能不準(zhǔn)確)。,8,1.1 企業(yè)信息用戶關(guān)心的新問題,傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)的局限性 傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)以數(shù)據(jù)庫(kù)為中心進(jìn)行從事務(wù)處理到?jīng)Q策分析等各種類型的數(shù)據(jù)處理工作,不適宜決策支持應(yīng)用,9,1.1 企業(yè)信息用戶關(guān)心的新問題,事務(wù)處理環(huán)境不適宜決策支持應(yīng)用的主要原因 事務(wù)處理和分析處理的性能特性不同 數(shù)據(jù)集成問題 歷史數(shù)據(jù)問題 數(shù)據(jù)綜合問題,10,1.2 解決問題的關(guān)鍵技術(shù)-數(shù)據(jù)倉(cāng)庫(kù),構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照決策支持處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境,11,1.2 解決問題的關(guān)鍵技術(shù)-數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù) Inmon把數(shù)據(jù)倉(cāng)庫(kù)描述為一個(gè)“面向主題的、完整的、非易失的、不同時(shí)間的、用于支持決策管理的數(shù)據(jù)集合” 通常有兩種數(shù)據(jù)源的數(shù)據(jù)聚居在數(shù)據(jù)倉(cāng)庫(kù)中 在大多數(shù)情況下,來自于事務(wù)處理系統(tǒng)周期性遷移的數(shù)據(jù)被移入數(shù)據(jù)倉(cāng)庫(kù) 另一種數(shù)據(jù)源常常是購(gòu)買過來的可以與內(nèi)部數(shù)據(jù)相連通的外部數(shù)據(jù)庫(kù),如收入清單、人口統(tǒng)計(jì)信息等,12,1.3數(shù)據(jù)倉(cāng)庫(kù)的商業(yè)應(yīng)用,典型應(yīng)用:客戶關(guān)系管理 有了數(shù)據(jù)倉(cāng)庫(kù),就可以了解客戶是誰(shuí),他要什么,怎樣提供更好的服務(wù)給他,并以此創(chuàng)造更多利潤(rùn) 零售業(yè) 電信行業(yè) 證券行業(yè),13,1.4 數(shù)據(jù)倉(cāng)庫(kù)與信息管理,數(shù)據(jù)倉(cāng)庫(kù)在信息管理方面的作用 信息資源管理 信息分析 信息服務(wù) 基于數(shù)據(jù)倉(cāng)庫(kù)為用戶提供信息服務(wù),可以使用戶能夠從多種視角觀察數(shù)據(jù),從而能夠更深入地理解數(shù)據(jù),從中獲得決策支持信息 數(shù)據(jù)倉(cāng)庫(kù)提供給用戶的信息或知識(shí)可以是利用從數(shù)據(jù)倉(cāng)庫(kù)抽取出的數(shù)據(jù)組織成的報(bào)表或繪制成的直觀圖形,14,1.5 信息管理新問題催生數(shù)據(jù)挖掘,人們被“淹沒”在數(shù)據(jù)“海洋”之中 如何不被堆積如山的信息所淹沒? 如何能夠迅速地從海量信息中獲取有用信息? 在這種背景下,數(shù)據(jù)挖掘(Data Mining)技術(shù)應(yīng)運(yùn)而生,15,1.5 信息管理新問題催生數(shù)據(jù)挖掘,數(shù)據(jù)挖掘是指從大型數(shù)據(jù)集中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、具有一定可信度的、對(duì)用戶而言是新穎的且有潛在價(jià)值的知識(shí),提取的知識(shí)表示為概念、規(guī)則、模式等多種形式,16,1.5 信息管理新問題催生數(shù)據(jù)挖掘,下面將通過一個(gè)案例研究來介紹各個(gè)數(shù)據(jù)分析階段中所涉及的概念 三個(gè)階段: 報(bào)表查詢 聯(lián)機(jī)分析 數(shù)據(jù)挖掘,17,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之報(bào)表查詢,18,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之報(bào)表查詢,19,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之聯(lián)機(jī)分析 1. 1月份,頭盔在什么地區(qū)銷售最好? 2. 1月份,哪個(gè)國(guó)家的頭盔銷售在該暢銷地區(qū)處于領(lǐng)先地位? 3. 在領(lǐng)先的國(guó)家中,哪個(gè)城市的頭盔收入最高?,20,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之?dāng)?shù)據(jù)挖掘 問題; 對(duì)購(gòu)買山地車的客戶來說,什么是最可能會(huì)同時(shí)購(gòu)買的商品? Intelligent Miner for data該問題做出如下答案:頭盔,可能性為92%:手套,可能性為62%:新款鈴鐺,可能性為23%;速度計(jì),可能性為13%。 關(guān)聯(lián)算法發(fā)現(xiàn)了產(chǎn)品之間的聯(lián)系。根據(jù)上面的答案,它會(huì)給銷售人員一個(gè)目錄,列出在銷售某一具體產(chǎn)品時(shí)所建議的前3名關(guān)聯(lián)產(chǎn)品。例如,如果銷售山地車,銷售人員可建議購(gòu)買頭盔、手套和新款鈴鐺。,21,1.5 信息管理新問題催生數(shù)據(jù)挖掘,案例之?dāng)?shù)據(jù)挖掘 3個(gè)月后,公司有了如下結(jié)果: 季度的營(yíng)業(yè)額上升34%,收入上漲32%; 每輛山地車交易的平均銷售收入增加了29%; 山地車與頭盔一塊購(gòu)買成了時(shí)尚(每個(gè)銷售地點(diǎn)的頭盔成交量都上升了); 手套的銷售上升15%; 山地車附件上升51%;,22,1.6 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的關(guān)系,構(gòu)建在數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)上的數(shù)據(jù)挖掘效率會(huì)更高 一般來說,數(shù)據(jù)挖掘的對(duì)象可以是普通的數(shù)據(jù)庫(kù)、文件系統(tǒng),也可以是數(shù)據(jù)倉(cāng)庫(kù),但,數(shù)據(jù)倉(cāng)庫(kù)完成了知識(shí)發(fā)現(xiàn)過程中大部分的數(shù)據(jù)預(yù)處理工作 數(shù)據(jù)挖掘庫(kù)中的內(nèi)容可以是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的一個(gè)邏輯上的子集 數(shù)據(jù)挖掘是一個(gè)相對(duì)獨(dú)立的系統(tǒng),它可以獨(dú)立于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)而存在,23,1.7數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)長(zhǎng)期共存,首先,企業(yè)在建立用于決策的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)時(shí),不能一味否定傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng),還應(yīng)該在企業(yè)內(nèi)部保留數(shù)據(jù)庫(kù)系統(tǒng),用于日常的事務(wù)處理 其次,數(shù)據(jù)庫(kù)是數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ) 第三,在技術(shù)實(shí)現(xiàn)方面,數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)差別不大,數(shù)據(jù)倉(cāng)庫(kù)并不是純粹的技術(shù)科學(xué),它強(qiáng)調(diào)的是數(shù)據(jù)組織的一種理念 第四,不要脫離企業(yè)的實(shí)際,盲目地、片面地、甚至是趕時(shí)髦地去引進(jìn)與實(shí)施數(shù)據(jù)倉(cāng)庫(kù)技術(shù),24,在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘,關(guān)系數(shù)據(jù)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù) 事務(wù)數(shù)據(jù)庫(kù) 高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù) 空間數(shù)據(jù)庫(kù) 時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù) 流數(shù)據(jù) 多媒體數(shù)據(jù)庫(kù) 面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù) 異種數(shù)據(jù)庫(kù)和歷史(legacy)數(shù)據(jù)庫(kù) 文本數(shù)據(jù)庫(kù)和萬維網(wǎng)(WWW) 知識(shí)庫(kù),25,空間數(shù)據(jù)庫(kù),空間數(shù)據(jù)庫(kù)是指在關(guān)系型數(shù)據(jù)庫(kù)(DBMS)內(nèi)部對(duì)地理信息進(jìn)行物理存儲(chǔ)??臻g數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)包括對(duì)象的空間拓?fù)涮卣鳌⒎强臻g屬性特征以及對(duì)象在時(shí)間上的狀態(tài)變化。 常見的空間數(shù)據(jù)庫(kù)數(shù)據(jù)類型 地理信息系統(tǒng)(GIS) 遙感圖像數(shù)據(jù) 醫(yī)學(xué)圖像數(shù)據(jù),26,時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù),時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)都存放與時(shí)間有關(guān)的數(shù)據(jù)。 時(shí)間數(shù)據(jù)庫(kù)通常存放包含時(shí)間相關(guān)屬性的數(shù)據(jù)。 時(shí)序數(shù)據(jù)庫(kù)存放隨時(shí)間變化的值序列。 對(duì)時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對(duì)象的演變特征或?qū)ο笞兓厔?shì)。,27,流數(shù)據(jù),與傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)。 主要應(yīng)用場(chǎng)合 網(wǎng)絡(luò)監(jiān)控 網(wǎng)頁(yè)點(diǎn)擊流 股票市場(chǎng) 流媒體…等等 與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)相比,流數(shù)據(jù)在存儲(chǔ)、查詢、訪問、實(shí)時(shí)性的要求等方面都有很大區(qū)別。,28,多媒體數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù)實(shí)現(xiàn)用計(jì)算機(jī)管理龐大復(fù)雜的多媒體數(shù)據(jù),主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫(kù)技術(shù)一般將這些多媒體數(shù)據(jù)以二進(jìn)制大對(duì)象的形式進(jìn)行存儲(chǔ)。 對(duì)于多媒體數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,需要將存儲(chǔ)和檢索技術(shù)相結(jié)合。目前的主要方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫(kù)的多特征提取和基于相似性的模式匹配。,29,面向?qū)ο髷?shù)據(jù)庫(kù)是面向?qū)ο蠹夹g(shù)和數(shù)據(jù)庫(kù)技術(shù)結(jié)合的產(chǎn)物,該技術(shù)對(duì)數(shù)據(jù)以對(duì)象的形式進(jìn)行存儲(chǔ),并在這個(gè)基礎(chǔ)上實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫(kù)的功能。 對(duì)象-關(guān)系數(shù)據(jù)庫(kù)基于對(duì)象-關(guān)系模型構(gòu)造,該模型通過處理復(fù)雜對(duì)象的豐富數(shù)據(jù)類型和對(duì)象定位等功能,擴(kuò)充關(guān)系模型。 面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘會(huì)涉及一些新的技術(shù),比如處理復(fù)雜對(duì)象結(jié)構(gòu)、復(fù)雜數(shù)據(jù)類型、類和子類層次結(jié)構(gòu)、構(gòu)造繼承以及方法和過程等等。,面向?qū)ο髷?shù)據(jù)庫(kù)/對(duì)象-關(guān)系數(shù)據(jù)庫(kù),30,異構(gòu)數(shù)據(jù)庫(kù)和歷史(legacy)數(shù)據(jù)庫(kù),歷史數(shù)據(jù)庫(kù)是一系列的異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)的集合,包括不同種類的數(shù)據(jù)庫(kù)系統(tǒng),像關(guān)系數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、文件系統(tǒng)等等。 有效利用歷史數(shù)據(jù)庫(kù)的關(guān)鍵在于實(shí)現(xiàn)不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)信息資源、硬件設(shè)備資源和人力資源的合并和共享。 對(duì)于異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)共享應(yīng)當(dāng)達(dá)到兩點(diǎn):一是實(shí)現(xiàn)數(shù)據(jù)庫(kù)轉(zhuǎn)換;二是實(shí)現(xiàn)數(shù)據(jù)的透明訪問。 WEB SERVICE技術(shù)的出現(xiàn)有利于歷史數(shù)據(jù)庫(kù)數(shù)據(jù)的重新利用。,31,文本數(shù)據(jù)庫(kù)和萬維網(wǎng)(WWW),文本數(shù)據(jù)庫(kù)存儲(chǔ)的是對(duì)對(duì)象的文字性描述。 文本數(shù)據(jù)庫(kù)的分類 無結(jié)構(gòu)類型(大部分的文本資料和網(wǎng)頁(yè)) 半結(jié)構(gòu)類型(XML數(shù)據(jù)) 結(jié)構(gòu)類型(圖書館數(shù)據(jù)) 萬維網(wǎng)(WWW)可以被看成最大的文本數(shù)據(jù)庫(kù) 數(shù)據(jù)挖掘內(nèi)容 內(nèi)容檢索 WEB訪問模式檢索,32,知識(shí)庫(kù),針對(duì)知識(shí)庫(kù)中的事實(shí)規(guī)則應(yīng)用綜合歸納推理機(jī)制,挖掘出深層次的更富概括性的知識(shí),33,34,數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的區(qū)別,35,實(shí)踐項(xiàng)目名稱,1、數(shù)據(jù)倉(cāng)庫(kù)軟件的使用方法; 2、客戶數(shù)據(jù)倉(cāng)庫(kù)的建立; 3、編程實(shí)現(xiàn)關(guān)聯(lián)分析算法; 4、編程實(shí)現(xiàn)決策樹分類算法; 5、數(shù)據(jù)挖掘應(yīng)用分析。,36,課程報(bào)告,1、實(shí)驗(yàn)?zāi)康?2、規(guī)格說明 3、算法步驟 4、結(jié)果分析 5、實(shí)驗(yàn)體會(huì) 6、結(jié)束語(yǔ) 7、參考文獻(xiàn) 8、程序源碼,源碼要求有清晰明確的注釋。,37,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
20 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù) 挖掘 信息管理 ppt 課件
鏈接地址:http://m.italysoccerbets.com/p-1417066.html