數據倉庫與數據挖掘的綜述.doc
Southwest university of science and technology 數據挖掘課程報告數據倉庫與數據挖掘的綜述學院名稱計算機科學與技術專業(yè)名稱計科學生姓名學號指導教師吳玨二一六年11月 摘要 通過對數據倉庫與數據挖掘的學習和大致的了解,主要提出了一種基于數據倉庫的數據挖掘系統的決策支持系統的框架。該文章把數據倉庫、數據挖掘工具和知識庫結合在一起,提高了數據挖掘的效率。增加了挖掘數據的效率和價值實用性!1、 概述 近十幾年來,人們利用信息技術生產和搜集數據的能力大幅度提高,千萬萬個數據庫被用于商業(yè)管理、政府辦公、科學研究和工程開發(fā)等等,并且這一勢頭仍將持續(xù)發(fā)展下去。于是,一個新的挑戰(zhàn)被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發(fā)現有用的知識,提高信息利用率呢?要想使數據真正成為一個公司的資源,只有充分利用它為公司自身的業(yè)務決策和戰(zhàn)略發(fā)展服務才行,否則大量的數據可能成為包袱,甚至成為垃圾。因此,面對"人們被數據淹沒,人們卻饑餓于知識的挑戰(zhàn),數據挖掘和知識發(fā)現(DMKD)技術應運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。 數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術語相近似的術語,如從數據庫中發(fā)現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持等。人們把原始數據看作是形成知識的源泉,就像從礦石中采礦一樣。原始數據可以是結構化的,如關系數據庫中的數據,也可以是半結構化的,如文本、圖形、圖像數據,甚至是分布在網絡上的異構型數據。發(fā)現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發(fā)現了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門很廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。 數據倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業(yè)所有級別的決策制定過程,提供所有類型數據支持的戰(zhàn)略集合。它是單個數據存儲,出于分析性報告和決策支持目的而創(chuàng)建。 為需要業(yè)務智能的企業(yè),提供指導業(yè)務流程改進、監(jiān)視時間、成本、質量以及控制。 今天, 越來越多的企業(yè)認識到要從以往的事務處理和決策中總結經驗,利用現有的數據進行分析和推理,建立企業(yè)的決策支持系統(DSS)以提高決策的質量。企業(yè)如果不能快速精確的收集和分析信息,將無法進行科學而有效的決策。建立數據倉庫(Data warehouse)將能很的解決這一問題,使企業(yè)從大量的業(yè)務信息中篩選出所需的信息,并做出正確的決策。數據倉庫不是單一的產品, 而是綜合了多種信息技術的計算環(huán)境。它將全企業(yè)的運行數據匯集到一個精心設計的關系數據庫中,并將它們轉換成面向主題(Subject-oriented)的形式,使最終用戶很容易的從歷史的角度對這些數據進行訪問和分析。以銀行為例,通常,銀行的應用系統是按業(yè)務分類的,如儲蓄、信貸、信用卡等,一個客戶的信息分布在不同的業(yè)務系統中,要想得到一個客戶的全面信息非常困難。銀行通過建立數據倉庫, 可以將分離在各個業(yè)務系統中的數據合并成一個統一的圖表,這樣就可以看到客戶在各個系統中的全貌,而且可以從歷史的角度對客戶檔案進行分析, 以便做出為每一個客戶進一步服務的決策。二、數據倉庫和數據挖掘的基本概念 數據倉庫和數據挖掘的關系:數據倉庫和數據挖掘都是數據倉庫系統的重要組成部分, 它們既有聯系, 又有區(qū)別。聯系是:(1) 數據倉庫為數據挖掘提供了更好的、更廣泛的數據源。(2) 數據倉庫為數據挖掘提供了新的支持平臺。(3) 數據倉庫為更好地使用數據挖掘這個工具提供了方便。(4) 數據挖掘為數據倉庫提供了更好的決策支持。(5) 數據挖掘對數據倉庫的數據組織提出了更高的要求。(6) 數據挖掘還為數據倉庫提供了廣泛的技術支持。區(qū)別是:(1) 數據倉庫是一種數據存儲和數據組織技術, 提供數據源。(2) 數據挖掘是一種數據分析技術, 可針對數據倉庫中的數據進行分析。 數據倉庫是支持管理決策過程的、面向主題的、集成的、隨時間而變的、持久的數據集合。數據倉庫系統負責從操作型數據庫中抽取數據,實現對集成和綜合后的數據的管理,并把數據呈現給一組數據倉庫前端工具, 以滿足用戶的各種分析和決策的需求。數據倉庫系統的前端工具以OLAP 工具和數據挖掘工具為代表,是用戶賴以從數據倉庫中提取、分析數據,以及實施決策的必經途徑。數據挖掘DM(Data Mining),是指從數據中識別出潛在有用的、先前未知的、最終可理解的模式的非平凡過程。研究基于數據倉庫的數據挖掘系統結構框架是很有意義的。三、數據倉庫的結構、功能1、數據倉庫的基本結構 數據倉庫的目的是構建面向分析的集成化數據環(huán)境,為企業(yè)提供決策支持(Decision Support)。其實數據倉庫本身并不“生產”任何數據,同時自身也不需要“消費”任何的數據,數據來源于外部,并且開放給外部應用,這也是為什么叫“倉庫”,而不叫“工廠”的原因。 數據倉庫中的信息存儲, 根據對數據的不同深度的分析處理而區(qū)分為不同的層次,其基本結構分為以下幾個部分:(1)歷史性詳細數據層:它存儲歷史數據,用于數據對比、回歸、匯總等供分析、建模預測之用。歷史數據一般為5 至10 年或更久的數據,它縱向只對數據/信息進行分類存儲。(2)當前詳細數據層:存儲當前最新詳細數據,重點用于了解當前情況,是進一步分析數據的基礎。在一定時刻,這些數據會轉移到歷史數據層去。(3)不同程序的歸納總結信息層:可包含多個層次,根據所需分類和歸納的不同深度而定。如按周、月、年統計的數據。這些信息只是一些簡單的匯總,尚不能形成高級的決策信息。(4)專業(yè)信息分析層:進一步專業(yè)分析的結果,如統計分析、運籌分析、時間序列分析以及表面數據的內在規(guī)律分析等。(5)倉庫結構信息:數據倉庫的內部結構信息,反映各種信息在數據倉庫中的位置分布和處理方式等,以便檢索查詢之用。組織數據倉庫的數據時, 應根據數據訪問概率把數據分為經常被訪問但較少被修改的數據和經常被修改但較少被訪問的數據。對于前者可以做較多的索引(一般可做8 至12 個)來提高訪問的效率;對于后者就必須少建索引,否則,由于它經常被修改,重索引的概率就很大,反而會降低系統的效率。2、數據倉庫的功能特點 數據倉庫技術是基于信息系統業(yè)務發(fā)展的需要,基于數據庫系統技術發(fā)展而來,并逐步獨立的一系列新的應用技術。數據倉庫技術就是基于數學及統計學嚴謹邏輯思維的并達成“科學的判斷、有效的行為”的一個工具。數據倉庫技術也是一種達成“數據整合、知識管理”的有效手段。數據倉庫是面向主題的、集成的、與時間相關的、不可修改的數據集合。這是數據倉庫技術特征的定位。數據倉庫最根本的特點是物理地存放數據,而且這些數據并不是最新的、專有的,而是來源于其它數據庫的。數據倉庫的建立并不是要取代數據庫,它要建立在一個較全面和完善的信息應用的基礎上,用于支持高層決策分析,而事務處理數據庫在企業(yè)的信息環(huán)境中承擔的是日常操作性的任務。數據倉庫是數據庫技術的一種新的應用,而且到目前為止,數據倉庫還是用關系數據庫管理系統來管理其中的數據。 數據倉庫的主要功能是提供企業(yè)決策支持系統或執(zhí)行信息系統(EIS)所需要的信息,它把企業(yè)日常運行中分散不一致的數據經歸納整理后轉換為集中統一的、可隨時取用的深層信息,這種信息雖然也是按關系數據庫的存儲結構存儲的, 單與面向逐條記錄的聯機時務處理(OLTP)不同,在數據倉庫中的一條記錄,有可能是基礎數據中若干個表、若干條記錄的歸納和匯總。數據倉庫的基本特點是:(1)面向對象性。數據倉庫中存儲的信息是面向主題來組織的。它根據所需要的信息,分不同類、不同角度等主題把數據加工、整理之后存儲起來(按橫向對數據進行分類存儲)。(2)數據歷史性。數據倉庫中可以專門存儲5 至10 年或更久的歷史數據,數據具有時間標示,以滿足信息比較、分析預測等的數據需求(按縱向對數據進行分類存儲)。(3)數據集成性。無論數據來源于何處,進入數據倉庫后都具有統一的數據結構和編碼規(guī)則, 數據倉庫中的數據具有一致性的特點。(4)數據只讀性。數據倉庫是一個信息源,它只是為在其上開發(fā)的DSS 或EIS 等提供信息服務,因此它應是只讀數據庫,一般不能輕易改動,只能定期刷新。(5)操作集合性。數據倉庫可通過快照機制,成批的更新來自不同資源的數據, 將其載入數據倉庫; 也可以成批的訪問數據。(6)應用C/S(客戶機/服務器)性。數據倉庫通過定義信息(元信息)把整個數據組織起來。在元信息中有一類記錄系統信息,定義了數據存儲、修改權限等,記錄系統將原始數據轉換成適合于數據倉庫應用的數據,所以這實際上是C/S 應用模式。四、數據挖掘技術數據挖掘是一種大型數據庫(如數據倉庫)中提取隱藏的預測性信息的新技術。數據挖掘是一種展望和預測性的信息分析工具,它能挖掘數據間潛在的關系模式,發(fā)現用戶可能忽略的信息,為企業(yè)管理者提供前攝的(Proactive)、基于知識的決策。數據挖掘技術使DSS 的應用向效益型賣出了重要的一步。傳統的DSS 通常是在某個假設的前提下通過數據查詢和分析來驗證或否定這個假設,而數據挖掘技術則能夠自動分析數據,進行歸納性推理,從中發(fā)掘出潛在模式或產生聯想,建立新的業(yè)務模型,幫助決策者調整市場策略,做出正確的決策。從數據本身來考慮,通常數據挖掘需要有數據清理、數據變換、數據挖掘實施過程、模式評估和知識表示等8個步驟。(1) 信息收集:根據確定的數據分析對象抽象出在數據分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數據庫。對于海量數據,選擇一個合適的數據存儲和管理的數據倉庫是至關重要的。(2) 數據集成:把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業(yè)提供全面的數據共享。(3) 數據規(guī)約:執(zhí)行多數的數據挖掘算法即使在少量數據上也需要很長的時間,而做商業(yè)運營數據挖掘時往往數據量非常大。數據規(guī)約技術可以用來得到數據集的規(guī)約表示,它小得多,但仍然接近于保持原數據的完整性,并且規(guī)約后執(zhí)行數據挖掘結果與規(guī)約前執(zhí)行結果相同或幾乎相同。(4) 數據清理:在數據庫中的數據有一些是不完整的(有些感興趣的屬性缺少屬性值),含噪聲的(包含錯誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進行數據清理,將完整、正確、一致的數據信息存入數據倉庫中。(5) 數據變換:通過平滑聚集,數據概化,規(guī)范化等方式將數據轉換成適用于數據挖掘的形式。對于有些實數型數據,通過概念分層和數據的離散化來轉換數據也是重要的一步。(6) 數據挖掘過程:根據數據倉庫中的數據信息,選擇合適的分析工具,應用統計方法、事例推理、決策樹、規(guī)則推理、模糊集、甚至神經網絡、遺傳算法的方法處理信息,得出有用的分析信息。(7) 模式評估:從商業(yè)角度,由行業(yè)專家來驗證數據挖掘結果的正確性。(8) 知識表示:將數據挖掘所得到的分析信息以可視化的方式呈現給用戶,或作為新的知識存放在知識庫中,供其他應用程序使用。數據挖掘過程是一個反復循環(huán)的過程,每一個步驟如果沒有達到預期目標,都需要回到前面的步驟,重新調整并執(zhí)行。不是每件數據挖掘的工作都需要這里列出的每一步,例如在某個工作中不存在多個數據源的時候,步驟(2)數據集成的步驟便可以省略。步驟(3)數據規(guī)約(4)數據清理(5)數據變換又合稱數據預處理。在數據挖掘中,至少60%的費用可能要花在步驟(1)信息收集階段,而至少60%以上的精力和時間是花在數據預處理。五、一種基于DW 的DMS 結構框架 根據數據倉庫系統的特點, 提出一種基于數據倉庫的通用數據挖掘系統的結構框架,如圖1。該結構框架的概念模型包括如下組成部分:(1)用戶查詢接口它可分為查詢分類、查詢解釋及規(guī)格化兩部分。其作用是將數據挖掘請求解釋成規(guī)格化的查詢語言,并交由查詢協同機處理。(2)查詢協同機它的工作是協同數據倉庫管理系統、數據挖掘工具管理系統和知識庫管理系統, 共同對查詢接口提交的查詢請求進行處理。 圖1 一種基于數據倉庫的數據挖掘系統的結構框架(3)數據倉庫管理系統它直接負責對數據倉庫進行管理,并完成對各種異構分布數據源中數據的提取工作, 以最大限度屏蔽各異構數據源對系統的影響。(4)知識庫管理系統它對知識庫進行管理和控制,包括知識的增加、刪除、更新和查詢等。一方面,處理由查詢協同機處理后產生的知識庫查詢請求,并將結果提交給數據挖掘模塊;另一方面,接受通過知識評價的知識模式,并存入知識庫。(5) 數據挖掘工具的管理系統它的作用是對數據挖掘工具進行管理。(6) 數據挖掘預處理模塊它的任務是在數據倉庫管理系統的協同下,根據元數據和維表,對整個數據倉庫中儲存的數據進行處理,生成符合用戶查詢需要的,并能滿足數據挖掘工具集要求的待處理數據子集。(7) 知識評價模塊數據挖掘階段發(fā)現出來的模式需要經過知識評價模塊的評估。如果存在冗余或無關的模式,則將其剔除了;如果模式不能滿足用戶要求,則需要重新選取數據,設定新的數據挖掘參數值, 甚至更換數據挖掘算法重新進行數據挖掘。(8) 結論表達模塊它將得到的結論按語義層次結構進行普化,得出各語義層上的結論,并對其進行解釋,將發(fā)現的模式以可視化或自然語言的形式呈現給用戶。六、基于數據倉庫與數據挖掘技術的DSS 創(chuàng)建數據倉庫的目的是為企業(yè)的DSS 和EIS 提供科學的決策依據。數據倉庫用于大量數據存儲和組織;數據挖掘用于從大量的數據中發(fā)現知識,為用戶進行預測決策。數據挖掘以數據倉庫和多維數據庫為基礎, 通過OLAP 和多維分析工具自動發(fā)現數據中的潛在模式,并以這些模式為基礎自動做出預測。數據倉庫與數據挖掘技術的結合為企業(yè)DSS 和EIS 的建立提供了新的、更有效的解決方案。圖2 表明了這種方案的一種結構。七、結束語 通過對數據倉庫與數據挖掘教程的學習,我了解了數據倉庫對相關數據進行分析的方法,以及用相關軟件預測的步驟。并且懂得了企業(yè)未來的成功,很大程度上取決于準確的數據挖掘能力,許多領域都需要對潛在的數據進行深層次的分析,困難主要有對數據的一些概念和方法方法不太熟悉,導致思想比較懵懂,會時不時出現差錯,導致出現的結果與預期的不一致。但總體來說還是有很多收獲的,通過這次學習,我鞏固了所學的理論知識,進一步理解了相關的概念和方法。也明白了一些深刻的道理,即在遇到困難時不要放棄,要有持之以恒的精神,遇到不懂的問題時要及時請教老師和同學,要在實際動手操作時進一步完善自己的所學的知識,要善于思考,善于總結,這樣才能有所學有所想,學有所得。八、參考文獻:1、賴福軍,周婷, 數據倉庫及其本關技術, 軟件世界, 1997.22、王珊,數據倉庫聯機分析處理數據挖掘.計算機世界報1997.01.06.P123-1253 、駱斌, 面向對象的數據倉庫技術的研究, 南京大學博士學位論文,1999.12 .4、陳兆乾,周志華、駱斌、陳世福,"增量式IHMCAP 算法的研究及其應用",計算機學報,1998,8.5、陳堅志 ,廣東外語外貿大學,"數據倉庫與數據挖掘在決策系統中的應用"