數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習(xí)題.doc
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 習(xí)題1.1什么是數(shù)據(jù)挖掘?在你的回答中,強(qiáng)調(diào)以下問題: (a) 它是又一個騙局嗎? (b) 它是一種從數(shù)據(jù)庫,統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)發(fā)展的技術(shù)的簡單轉(zhuǎn)換嗎? (c) 解釋數(shù)據(jù)庫技術(shù)發(fā)展如何導(dǎo)致數(shù)據(jù)挖掘 (d) 當(dāng)把數(shù)據(jù)挖掘看作知識發(fā)現(xiàn)過程時,描述數(shù)據(jù)挖掘所涉及的步驟。1.2 給出一個例子,其中數(shù)據(jù)挖掘?qū)τ谝环N商務(wù)的成功至關(guān)重要的。這種商務(wù)需要什么數(shù)據(jù)挖掘功能?他們能夠由數(shù)據(jù)查詢處理或簡單的統(tǒng)計分析來實現(xiàn)嗎?1.3 假定你是Big-University的軟件工程師,任務(wù)是設(shè)計一個數(shù)據(jù)挖掘系統(tǒng),分析學(xué)校課程數(shù)據(jù)庫。該數(shù)據(jù)庫包括如下信息:每個學(xué)生的姓名,地址和狀態(tài)(例如,本科生或研究生),所修課程,以及他們累積的GPA(學(xué)分平均)。描述你要選取的結(jié)構(gòu)。該結(jié)構(gòu)的每個成分的作用是什么?1.4 數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?它們有那些相似之處? 15簡述以下高級數(shù)據(jù)庫系統(tǒng)和應(yīng)用:面向?qū)ο髷?shù)據(jù)庫,空間數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫和WWW。16 定義以下數(shù)據(jù)挖掘功能:特征化,區(qū)分,關(guān)聯(lián),分類,預(yù)測,聚類和演變分析。使用你熟悉的現(xiàn)實生活中的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘的例子。17 區(qū)分和分類的差別是什么?特征化和聚類的差別是什么?分類和預(yù)測呢?對于每一對任務(wù),它們有何相似之處?18 根據(jù)你的觀察,描述一種可能的知識類型,它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但未在本章中列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎?1. 9 描述關(guān)于數(shù)據(jù)挖掘方法和用戶交互問題的三個數(shù)據(jù)挖掘的挑戰(zhàn)。 1. 10 描述關(guān)于性能問題的兩個數(shù)據(jù)挖掘的挑戰(zhàn)。 2.1 試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動的方法(構(gòu)造使用數(shù)據(jù)倉庫),而不愿使用查詢驅(qū)動的方法(使用包裝程序和集成程序)。描述一些情況,其中查詢驅(qū)動方法比更新驅(qū)動方法更受歡迎。2.2 簡略比較以下概念,可以用例子解釋你的觀點(a) 雪花模式、事實星座、星型網(wǎng)查詢模型(b) 數(shù)據(jù)清理、數(shù)據(jù)變換、刷新(c) 發(fā)現(xiàn)驅(qū)動數(shù)據(jù)立方體、多特征方、虛擬倉庫2.3 假定數(shù)據(jù)倉庫包含三個維time,doctor和patient,兩個度量count 和charge,其中charge是醫(yī)生對一位病人的一次診治的收費(fèi)。(a) 列舉三種流行的數(shù)據(jù)倉庫建模模式。(b) 使用(a)列舉的模式之一,畫出上面數(shù)據(jù)倉庫的模式圖。(c) 由基本方體day,doctor,patient開始,為列出2000年每位醫(yī)生的收費(fèi)總數(shù),應(yīng)當(dāng)執(zhí)行哪些 OLAP操作?(d) 為得到同樣的結(jié)果,寫一個SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,其模式如下:fee(day,month,year, doctor,hospital,patient,count,charge)2.4 假定Big_University的數(shù)據(jù)倉庫包含如下4個維student, course, semester和instructor,2個度量count和avg_grade。在最低的概念層(例如對于給定的學(xué)生、課程、學(xué)期和教師的組合),度量avg_grade存放學(xué)生的實際成績。在較高的概念層,avg_grade存放給定組合的平均成績。(a) 為數(shù)據(jù)倉庫畫出雪花模式圖;(b) 由基本方體 student, course, semester, instructor開始,為列出Big_University每個學(xué)生的CS課程的平均成績,應(yīng)當(dāng)使用哪些OLAP操作(如由 semester上卷到y(tǒng)ear);(c) 如果每維有5層(包括all),如student<MAJOR<STATUS<UNIVERSITY<> 2.5 假定數(shù)據(jù)倉庫包含4個維date,spectator,location和game,2個度量count和charge。其中charge是觀眾在給定的日期觀看節(jié)目的付費(fèi)。觀眾可以是學(xué)生、成年人或老人,每類觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。(a ) 畫出該數(shù)據(jù)倉庫的星型模式圖;(b) 由基本方體date,spectator,location,game開始,為列出2000年學(xué)生觀眾在GM-Place的總付費(fèi),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?(c) 對于數(shù)據(jù)倉庫,位圖索引是有用的。以該數(shù)據(jù)立方體為例,簡略討論使用位圖索引結(jié)構(gòu)的優(yōu)點和問題。2.6 為地區(qū)氣象局設(shè)計一個數(shù)據(jù)倉庫。氣象局大約有1000觀察點,散步在該地區(qū)的陸地、海洋,收集基本氣象數(shù)據(jù),包括每小時的氣壓、溫度、降雨量。所有的數(shù)據(jù)都送到中心站,那里已收集了這種數(shù)據(jù)長達(dá)十年。你的設(shè)計應(yīng)當(dāng)有利于有效的查詢和聯(lián)機(jī)分析處理,有利于有效地導(dǎo)出多維空間的一般天氣模式。2.7 關(guān)于數(shù)據(jù)立方體中的度量計算:(a) 根據(jù)計算數(shù)據(jù)立方體所用的聚集函數(shù),列出度量的三種分類;(b) 對于具有三個維time,location和product的數(shù)據(jù)立方體,函數(shù)variance屬于哪一類?如果立方體被分割成一些塊,描述如何計算它;(c) 假定函數(shù)是"最高的10個銷售額"。討論如何在數(shù)據(jù)立方體里有效的計算該度量。2.8 假定需要在數(shù)據(jù)立方體中記錄三種度量:min,average和median。給定的數(shù)據(jù)立方體允許遞增的刪除(即每次一小部分),為每種度量設(shè)計有效的計算和存儲方法。2.9 數(shù)據(jù)倉庫實現(xiàn)的流行方法是構(gòu)造一個稱為數(shù)據(jù)立方體的多維數(shù)據(jù)庫。不幸的是,這常常產(chǎn)生大的、稀疏的多維矩陣。(a) 給出一個例子,解釋這種大的、稀疏的數(shù)據(jù)立方體;(b) 設(shè)計一種實現(xiàn)方法,可以很好的克服這種稀疏矩陣問題。注意,需要詳細(xì)解釋你的數(shù)據(jù)結(jié)構(gòu),討論空間需求量,以及如何由你的結(jié)構(gòu)中檢索數(shù)據(jù);(c) 修改你在(b)的設(shè)計,處理遞增的數(shù)據(jù)更新。給出你的新設(shè)計的理由。2.10 假定數(shù)據(jù)倉庫包含20個維,每個維有5級粒度。(a)用戶感興趣的主要是4個特定的維,每維有3個上卷、下鉆頻繁訪問的級。你如何設(shè)計數(shù)據(jù)立方結(jié)構(gòu),有效地對此予以支持?(b)用戶時常想由一兩個特定的維鉆透數(shù)據(jù)立方體,到原始數(shù)據(jù)。你如何支持這一特征?2.11 假定基本立方體有三個維A,B,C,其單元數(shù)如下:|A|=1000000, |B|=100,|C|=1000。假定分塊將每維分成10部分。(a)假定每維只有一層,畫出完整的立方體的格。(b)如果每個立方單元存放一個4字節(jié)的度量,若方是稠密的,所計算的立方體有多大?(c)指出立方體中空間需求量最小的塊計算次序,并對計算維平面所需要的內(nèi)存空間計算空間量。31 數(shù)據(jù)的質(zhì)量可以用精確性,完整性和一致性來評估。提出兩種數(shù)據(jù)質(zhì)量的其他尺度。32 在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。33 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52, 70 (a) 使用按箱平均值平滑對以上數(shù)據(jù)進(jìn)行平滑,箱的深度是3。解釋你的步驟。評論對于給定的數(shù)據(jù),該技術(shù)的效果 (b) 你怎樣確定數(shù)據(jù)中的孤立點? (c) 對于數(shù)據(jù)平滑,還有那些其他方法?34 討論數(shù)據(jù)集成需要考慮的問題。 (1) 模式識別:這主要是實體識別問題 (2) 冗余:一個屬性是冗余的,即它能由另一個表導(dǎo)出,如果屬性或唯的命名不一致,也可能導(dǎo)致冗余,可以用相關(guān)分析來檢測 (3) 數(shù)據(jù)值沖突的檢測與處理:有些屬性因表示比例或編碼不同,會導(dǎo)致屬性不同35 使用習(xí)題3。3給出的age數(shù)據(jù),回答以下問題: (a) 使用最小-最大規(guī)范化,將age值35轉(zhuǎn)換到0。0,1。0區(qū)間 (b) 使用z-score規(guī)范化轉(zhuǎn)換age 值35,其中age的標(biāo)準(zhǔn)差為12。94年 (c) 使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換age值35。 (d) 指出對于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。36 使用流程圖概述如下屬性子集選擇過程 (a) 逐步向前選擇 (b) 逐步向后刪除 (c) 逐步向前選擇和逐步向后刪除的結(jié)合3.7使用習(xí)題3.3給出的age數(shù)據(jù) (a)畫一個寬度為10的等寬直方圖。 (b)為如下每種選樣技術(shù)勾畫例子: SRSWOR, SRSWR, 聚類選擇,分層選擇。使用長度為5的樣本和層"young","middle_aged"和"senior"。3.8 對如下問題,使用偽代碼或你喜歡用的程序設(shè)計語言,給出算法: (a)對于分類數(shù)據(jù),基于給定模式中屬性的不同值得個數(shù),自動產(chǎn)生概念分層。 (b)對于數(shù)值數(shù)據(jù),基于等寬劃分規(guī)則,自動產(chǎn)生概念分層。 (c)對于數(shù)值數(shù)據(jù),基于等深劃分規(guī)則,自動產(chǎn)生概念分層。4.1列出和描述說明數(shù)據(jù)挖掘任務(wù)的五種原語。4.2 說明為什么概念分層在數(shù)據(jù)挖掘中是有用的。4.3 概念分層的四種主要類型是:模式分層,集合分組分層,操作導(dǎo)出的分層和基于規(guī)則的分層。 a)簡略定義每種類型的分層。 b)對于每種類型的分層,給出一個不在本章中出現(xiàn)的例子。4.4 考慮下面的由Big-University 的學(xué)生數(shù)據(jù)庫挖掘的關(guān)聯(lián)規(guī)則major (X,"science")=>status(X,"undergrad") (4.8)假定學(xué)校的學(xué)生人數(shù)(即任務(wù)相關(guān)的元組數(shù))為5000,其中56%的在校本科生的專業(yè)是科學(xué),64%的學(xué)生注冊本科學(xué)位課程,70%的學(xué)生主修科學(xué)。a) 計算規(guī)則(4.8)的支持度和置信度。b)考慮下面的規(guī)則(4.9): major(X,"biology")=>status(X,"undergrad") 17%,80% (4.9) 假定主攻科學(xué)的學(xué)生30%專業(yè)為biology。與規(guī)則(4.8)對比,你認(rèn)為規(guī)則(4.9)新穎嗎? 解釋你的結(jié)論。4.5 語句可以用于挖掘特征化,區(qū)分,關(guān)聯(lián)和分類規(guī)則。為聚類的挖掘提出一個語法定義。4.6 論建立標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘查詢語言的重要性。涉及這一任務(wù)的一些潛在好處和挑戰(zhàn)是什么?列舉一些該領(lǐng)域的最近提議。4.7 下面的練習(xí)涉及定義概念分層的DMQL語法。 (a) 典型情況,對于模式date(day,month,quarter,year),數(shù)據(jù)挖掘系統(tǒng)有一個預(yù)定義的概念分層。使用DMQL提供該概念分層的定義。 (b) 概念分層定義可能涉及多個關(guān)系。例如,iterm_hierachy可以涉及兩個關(guān)系item和supplier,由如下模式定義: item(item_ID, brand, type, place_made, supplier) supplier(name, type, headquarter_location, owner, size, assets, revenue)5.1對于類特征化, 基于數(shù)據(jù)立方體的實現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。5.2 假定下面的表從面向?qū)傩缘臍w納導(dǎo)出 class &n bsp; birth- place count &n bsp; Cannada &nbs p; 180programmer others ; 120 &nbs p; Cannada &nbs p; 20Dba &n bsp; others ; 80(a) 將該表轉(zhuǎn)換成現(xiàn)實相關(guān)t-權(quán)和d-權(quán)的交叉表(b) 將類Programmer轉(zhuǎn)換成(雙向的)量化描述規(guī)則。例如 (birth_place(X)="Canada".)t:x%,d:y%.(.)(t:w%,d:z%。?X,Programmer(X)5.3 討論為什么需要解析特征化和如何進(jìn)行。比較兩種歸納方法的結(jié)果:(I)包含相關(guān)分析和(ii)不包含相關(guān)分析。5.4 對于數(shù)據(jù)離散的特征化,另外給出三個常用統(tǒng)計度量(未在本章說明),并討論如何在大型數(shù)據(jù)庫中有效地計算它們。5.5 假定分析數(shù)據(jù)包含屬性age.數(shù)據(jù)元組的age值(以遞增次序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70A 該數(shù)據(jù)的平均值是多少?中位數(shù)是多少?B 該數(shù)據(jù)的模是多少?評論數(shù)據(jù)的模態(tài)性(即雙模態(tài),三模態(tài)等).C 數(shù)據(jù)的中列數(shù)是什么D 你能找出(粗略地)數(shù)據(jù)的第一個四分位數(shù)(q1)和第三個四分位數(shù)(Q3)嗎?E 給出數(shù)據(jù)的五數(shù)概括F 畫出數(shù)據(jù)的盒圖G 分位數(shù)-分位數(shù)圖與分位數(shù)圖的不同之處是什么?5.6 給定由數(shù)據(jù)庫DB導(dǎo)出的概化關(guān)系R,假定元組的集合 DB需要從DB中刪除,簡要給出用于R的必要刪除的增量更新過程。5.7 簡要給出挖掘解析類比較的基于數(shù)據(jù)立方體的增量算法。 5.8 簡要給出數(shù)據(jù)立方體環(huán)境下數(shù)據(jù)離散統(tǒng)計度量的()并行和( )分布式挖掘方法。61 Apriori 算法使用子集支持度性質(zhì)的先驗知識a) 證明頻繁項集的所有非空子集必須也是頻繁的。b) 證明項集s的任意非空子集s的支持度至少和s的支持度一樣大。c) 給定頻繁項集l和l的子集s,證明規(guī)則"s=>(l-s)"的置信度不可能大于"s=>(l-s)"的置信度。其中,s是s的子集。d) Apriori的一種變形將事務(wù)數(shù)據(jù)庫D中的事務(wù)劃分成n個不重疊的部分。證明在D中是頻繁的任何項集至少在D的一個部分中是頻繁的。62 數(shù)據(jù)庫有4個事務(wù)。設(shè)min_sup = 60%,min_conf = 80%。 TID DATE ITEMS_BOUGHTT100 10/15/99 K, A, D, BT200 10/15/99 D, A, C, E, B T300 10/19/99 C, A, B, ET400 10/22/99 B, A, DA) 分別使用Apriori 和FP- 增長算法找出頻繁項集。比較兩種挖掘過程的有效性。B) 列出所有強(qiáng)關(guān)聯(lián)規(guī)則,他們與下面的元規(guī)則匹配,其中,X 是代表顧客的變量,item 時表示項的變量: " xtransaction, buys(X, item1)buys(X, item2) => buys(X, item3) s, c63 在挖掘?qū)咏徊骊P(guān)聯(lián)規(guī)則時,假定發(fā)現(xiàn)項集"IBM desktop computer, printer"不滿足最小支持度。這一信息可以用來剪去諸如"IBM desktop computer, b/w printer"的"后代"項集的挖掘嗎?給出一個一般規(guī)則,解釋這一信息如何用于對搜索空間剪枝。64 給出一個短例子,表明強(qiáng)關(guān)聯(lián)規(guī)則中的項可能實際上是負(fù)相關(guān)的。 65 下面的相依表匯總了超級市場的事務(wù)數(shù)據(jù),其中,hot dogs 表示包含熱狗的事務(wù),hotdogs 表示不包含熱狗的事務(wù),hamburgers 表示包含漢堡包的事務(wù),hamburgers 表示不包含漢堡包的事務(wù)。 Hotdogs hotdogs Hamburgers 2000 500 2500hamburgers 1000 1500 2500 col 3000 2000 5000A) 假定發(fā)現(xiàn)關(guān)聯(lián)規(guī)則"hotdogs=>hamburgers "。給定最小支持度閾值25% ,最小置信度閾值 50% ,該關(guān)聯(lián)規(guī)則是強(qiáng)的嗎?B) 根據(jù)給定的數(shù)據(jù),買hotdog 獨(dú)立于買hamburgers 嗎?如果不是,二者之間存在何種相關(guān)聯(lián)系? 66 數(shù)據(jù)庫有4 個事務(wù),設(shè) min_sup = 60% , min_conf = 80% 。Cust_ID TID Items_bought(以brand- item_category形式)01 T100 Kings-Carb, Sunset-Milk, Dairyland-Cheese, best-Bread02 T200 Best-Cheese, Dairyland-Milk, Goldenfarm-Apple, Tasty-Pie, Wonder-Bread01 T300 Westcoast-Apple, Dairyland- Milk, Wonder-Bread, Tasty-Pie03 T400 Wonder-Bread, Sunset-Milk, Dairyland-Cheesea) 在 item_category 粒度(例如,itemi 可以是"milk" ),對于下面規(guī)則模板" xtransaction, buys(X, item1)buys(X, item2) => buys(X, item3) s, c對于最大的k,列出頻繁k-項集和包含最大的k的頻繁k-項集的所有強(qiáng)關(guān)聯(lián)規(guī)則。b) 在brand-item_category 粒度(例如:item 可以是"sunset-milk "),對于下面的規(guī)則模板:" xcustomer, buys(X, item1)buys(X, item2) => buys(X, item3) 對最大的k,列出頻繁k-項集。注意:不打印任何規(guī)則。6.7 假定一個大型存儲具有分布在4個站點的事務(wù)數(shù)據(jù)庫。每個成員數(shù)據(jù)庫中的事務(wù)具有相同的格式Tj:i1,.,im;其中,Tj是事務(wù)標(biāo)示符,而ik(1<=k<=m)是事務(wù)中購買的商品標(biāo)識符。提出一個有效的算法,挖掘全局關(guān)聯(lián)規(guī)則(不考慮多層關(guān)聯(lián)規(guī)則)??梢越o出你的算法的要點。你的算法不必將所有的數(shù)據(jù)移到一個站點,并且不造成過度的網(wǎng)絡(luò)通信開銷。6.8 假定大型事務(wù)數(shù)據(jù)庫DB的頻繁項集已經(jīng)存儲。討論:如果新的事務(wù)集DB(增量地)加進(jìn),在相同的最小支持度閾值下,如何有效地挖掘(全局)關(guān)聯(lián)規(guī)則?6.9 提出并給出挖掘多層關(guān)聯(lián)規(guī)則的層共享挖掘方法的要點。其中,每個項用它的層位置編碼,一次初始數(shù)據(jù)庫掃描收集每個概念層的每個項的計數(shù),識別頻繁和子頻繁項集。將用該方法挖掘多層關(guān)聯(lián)規(guī)則與挖掘單層關(guān)聯(lián)規(guī)則的花費(fèi)進(jìn)行比較。6.10 證明:包含項h和其祖先h的項集H的支持度與項集H-h的支持度相同。解釋如何將它用于層交叉關(guān)聯(lián)規(guī)則挖掘。6.11 提出一種挖掘混合維關(guān)聯(lián)規(guī)則(多維關(guān)聯(lián)規(guī)則帶有重復(fù)謂詞)的方法。6.12 序列模式可以用類似于關(guān)聯(lián)規(guī)則挖掘的方法挖掘。設(shè)計一個有效的算法,由事務(wù)數(shù)據(jù)庫挖掘多層序列模式。這種模式的一個例子如下:"買PC的顧客在三個月內(nèi)將買Microsoft軟件",在其上,可以下鉆,發(fā)現(xiàn)該模式的更詳細(xì)的版本,如"買Pentium PC的顧客在三個月內(nèi)將買Microsoft Office"。6.13 商店里每種商品的價格是非負(fù)的。商店經(jīng)理只關(guān)心如下形式的規(guī)則:"一件免費(fèi)商品可能觸發(fā)在同一事務(wù)中$200的總購物"。陳述如何有效地挖掘這種規(guī)則。6.14 商店里每種商品的價格是非負(fù)的。對于以下每種情況,識別它們提供的約束類型,并簡略討論如何有效地挖掘這種關(guān)聯(lián)規(guī)則。(a) 至少包含一件Nintendo游戲。(b) 包含一些商品,它們的單價和小于$150。(c) 包含一件免費(fèi)商品,并且其它商品的單價和至少是$200。(d) 所有商品的平均價格在$100和$500之間。7.1 簡述判定樹分類的主要步驟。 7.2 在判定樹歸納中,為什么樹剪枝是有用的?用一個單獨(dú)的樣本集計值剪枝的缺點是什么? 7.3 為什么樸素貝葉斯分類稱為"樸素"的?簡述樸素貝葉斯分類的主要思想。 7.4 比較急切分類(如判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對于懶散分類(如,k-最臨近、基于案例的推理)的優(yōu)缺點。 7.5 通過對預(yù)測變量的變換,有些非線性回歸模型可以轉(zhuǎn)換成線性的。指出如何將非線性回歸方程Y=aXb轉(zhuǎn)換成可以用最小平方法求解的線性回歸方程。 7.6 什么是推進(jìn)?陳述它為何能提高判定樹歸納的準(zhǔn)確性。 的表決,這里每個分類法的表決是其準(zhǔn)確率的函數(shù)。推進(jìn)算法也可以擴(kuò)充到連續(xù)值預(yù)測。 7.7 證明準(zhǔn)確率是靈敏性和特效性度量的函數(shù),即證明( 7.31 )式。 7.8 當(dāng)一個數(shù)據(jù)對象可以同時屬于多個類時,很難評估分類的準(zhǔn)確率。陳述在這種情況下,你將使用何種標(biāo)準(zhǔn)比較在相同數(shù)據(jù)上的建模的不同分類方法。 7.9 給定判定樹,你有選擇:(a)將判定樹轉(zhuǎn)換成規(guī)則,然后對結(jié)果規(guī)則剪枝,或(b) 對判定樹剪枝,然后將剪枝后的樹轉(zhuǎn)換成規(guī)則。相對于(b),(a)的優(yōu)點是什么?7.10 給定k和描述每個樣本的屬性數(shù)n,寫一個k-最臨近分類算法。7.11 下表給出課程數(shù)據(jù)庫中學(xué)生的期中和期末考試成績。X其中考試 Y期末考試 72 8450 6381 7774 7894 9086 7559 4983 7965 7 733 5288 7481 90(a) 繪數(shù)據(jù)圖。X和Y看上去具有線性聯(lián)系嗎?(b) 使用最小二乘法,求由學(xué)生的期中成績預(yù)測學(xué)生的期末成績的方程式。(c) 預(yù)測期中成績?yōu)?6分的學(xué)生的期末成績。7.12 下表有雇員數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已概化。對于給定的行, count表示department,status, age和salary在該行上具有給定值的元組數(shù)。 department Status Age Salary countsales senior 31.35 46K.50K 30sales& nbsp;junior 26.30 26K.30K 40sales junior 31.35 31K.35K 40systems juni or 21.25 46K.50K 20systems senior 31.35 66K.70K 5systems junior 26.30 46K.50K 3systems senior 41.45 66K.70K 3marketing senior 36.40 46K.50K 10marketing junior 31.35 41K.45K 4secretary senior 46.50&nbs p;36K.40K 4secretary junior 26.30 26K.30K 6設(shè)salary是類標(biāo)號屬性。(a) 你將如何修改ID3算法,以便考慮每個概化數(shù)據(jù)元組(即每一行)的count?(b) 使用你修改過的ID3算法,構(gòu)造給定數(shù)據(jù)的判定樹。(c) 給定一個數(shù)據(jù)樣本,它在屬性department,status和age上的值分別為"systems","junior"和"20.24"。該樣本的salary的樸素貝葉斯分類是什么?(d) 為給定的數(shù)據(jù)設(shè)計一個多層前饋神經(jīng)網(wǎng)絡(luò)。標(biāo)記輸入和輸出層節(jié)點。(e) 使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓(xùn)練實例"(sales,senior,31.35,46K.50K)",給出后向傳播算法一次迭代后的權(quán)值。指出你使用的初始權(quán)值和偏置以及學(xué)習(xí)率。8.1 給定年齡 age 的變量的如下度量值:18 ,22 , 25 ,42 ,28 , 43 ,33 ,35 , 56 ,28 通過如下的方法進(jìn)行變量標(biāo)準(zhǔn)化: a) 計算age 的平均絕對誤差。 b) 計算頭四個值的z score 。8.2 給定兩個對象,分別用元組(22 ,1 , 42 ,10 )和(20 , 0 ,36 ,8 )表示 a) 計算兩個對象之間的歐幾里的距離 b) 計算兩個對象之間的曼哈坦距離計算兩個對象間的明考斯基距離,q3。8.3 什么是聚類?簡單描述下列聚類方法:劃分方法,層次方法,基于密度的方法,基于網(wǎng)格的方法,以及基于模型的方法。為每種方法給出例子。8.4 假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下8 個點(用(x , y )代表位置)聚類為3 個簇: A1 ( 2 ,10 ),A2 ( 2 ,5 ),A3 ( 8 ,4 ),B1 ( 5 ,8 ),B2 ( 7 ,5 ),B3 ( 6 ,4 ),C1 ( 1 ,2 ),C2 ( 4 ,9 ) 距離函數(shù)是歐幾里的距離。假設(shè)初始選擇A1 ,B1 , C1 分別為每個聚類的中心。請用K 平均算法給出 a) 第一次循環(huán)執(zhí)行后的三個聚類中心; b) 最后的三個簇。8.5 人眼在判斷聚類方法對二位數(shù)據(jù)的聚類質(zhì)量上是快速而有效的。你能否設(shè)計出一個數(shù)據(jù)可視的方法類似數(shù)據(jù)聚類可視化和幫助人們判斷三維數(shù)據(jù)的聚類質(zhì)量。對更高維的數(shù)據(jù)如何?8.6 給出如何集成特定聚類算法的例子,例如,什么情況下一個聚類算法被用作另一個算法的預(yù)處理。9.1異構(gòu)數(shù)據(jù)庫系統(tǒng)由多個數(shù)據(jù)庫系統(tǒng)組成,這些數(shù)據(jù)庫的定義是相互獨(dú)立的,但彼此間需要一定的信息交換,能夠處理局部和全局查詢。試述在這種系統(tǒng)中如何使用基于概化的方法處理描述性挖掘查詢。9.2對象立方體的建立,可以在執(zhí)行多維概化之前通過把面向?qū)ο蟮臄?shù)據(jù)庫概化為結(jié)構(gòu)化數(shù)據(jù)來完成。試述如何在對象立方體中處理集合值數(shù)據(jù)。9.3 空間關(guān)聯(lián)挖掘可以至少按如下兩種方式加以實現(xiàn):(i)基于挖掘查詢的要求,可以動態(tài)計算不同空間對象之間的空間關(guān)聯(lián)關(guān)系;(ii)預(yù)先計算出空間對象間的空間距離,使得關(guān)聯(lián)挖掘可以基于這些預(yù)計算結(jié)果求得。試述(i)如何高效實現(xiàn)上述方法;(ii)各方法的適用條件。9.4假設(shè)某城市的交通部門需要規(guī)劃高速公路的建設(shè),為此希望根據(jù)每天不同時刻收集到的交通數(shù)據(jù)進(jìn)行有關(guān)高速公路大通方面的數(shù)據(jù)分析。(a)設(shè)計一存儲高速公路交通信息的空間數(shù)據(jù)倉庫,可以方便地支持人們按高速公路、按一天的時間和按工作日查看平均的和高峰時間的交通流量,以及在發(fā)生重大交通事故時的交通狀況。(b)可以從該空間數(shù)據(jù)倉庫中挖掘什么樣的信息用于支持城市規(guī)劃人員?(c)該數(shù)據(jù)倉庫既包含了空間數(shù)據(jù),也包含了時態(tài)數(shù)據(jù)。設(shè)計一種挖掘技術(shù),可以高效地從該空間時態(tài)數(shù)據(jù)倉庫挖掘有意義的模式。9.5 多媒體中的相似檢索已經(jīng)成為多媒體數(shù)據(jù)檢索系統(tǒng)開發(fā)中的主要內(nèi)容。然而,許多多媒體數(shù)據(jù)挖掘方法只是基于孤立的簡單多媒體特征分析,如顏色、形狀、描述、關(guān)鍵字,等等。(a)請指出將數(shù)據(jù)挖掘與基于相似性的檢索結(jié)合,可以給多媒體數(shù)據(jù)挖掘帶來重要的進(jìn)步??梢杂萌我粩?shù)據(jù)挖掘技術(shù)為例,如多維分析、分類、關(guān)聯(lián)或聚類等。(b)請概述應(yīng)用基于相似性的搜索方法增強(qiáng)多媒體數(shù)據(jù)中聚類質(zhì)量的實現(xiàn)技術(shù)。9.6假設(shè)一供電站保存了按時間和按地區(qū)的能源消耗量,和每一地區(qū)每一用戶的能源使用信息。討論在這一時序數(shù)據(jù)庫中,如何解決如下問題:(a)找出星期五某一給定地區(qū)的相似的能源消耗曲線;(b)當(dāng)能源消耗曲線急劇上升時,20分鐘內(nèi)會發(fā)生什么情況?(c)如何找出可以區(qū)分穩(wěn)定能源消耗地區(qū)與不穩(wěn)定能源消耗地區(qū)的最突出特征? 9.7假設(shè)某連鎖餐廳想挖掘出與主要體育事件相關(guān)的顧客行為,如"每當(dāng)電視播出法裔加拿大人的曲棍球比賽時,肯德雞的銷量會在比賽前一小時上升20"。(a)給出一種找出這種模式的有效方法。(b )大部分與時間相關(guān)的關(guān)聯(lián)挖掘算法都使用了類Apriori算法來挖掘此類模式。6.2.4節(jié)中介紹的基于數(shù)據(jù)庫投影的頻繁模式(FP)增長方法,對挖掘頻繁項集是十分有效的??煞駭U(kuò)展FP增長方法去找出此類與時間相關(guān)的模式?9.8一個電子郵件數(shù)據(jù)庫是指包含了大量電子郵件(e-mail)信息的數(shù)據(jù)庫。它可以被視為主要包含文本數(shù)據(jù)的半結(jié)構(gòu)化數(shù)據(jù)庫。討論以下問題:(a)如何使一個e-mail數(shù)據(jù)庫變成結(jié)構(gòu)化的,以便支持多維檢索,如按發(fā)送者、接受者、主題和時問等的檢索。(b)從e-mail數(shù)據(jù)庫中可以挖掘什么信息?(c )假設(shè)對以前的一組e-mail 信息有一個粗略的對類,如junk (垃圾),unimportant (不重要),normal (一般),或important (重要),試論述一數(shù)據(jù)挖掘系統(tǒng)如何以此為訓(xùn)練集來自動分類新的e-mail 消息或反分類(unclassify )e-mail 信息。10.1. 給出一個數(shù)據(jù)挖掘的例子,并且討論在此應(yīng)用中如何使用各種不同的數(shù)據(jù)挖掘方法10.2假設(shè)要在市場上購買一個數(shù)據(jù)挖掘系統(tǒng)(a)考慮數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng)耦合方式,試述無耦合、松耦合、半緊耦合和緊耦合之間的區(qū)別;(b)行可伸縮性和列可伸縮性之間的區(qū)別是什么?(c)當(dāng)選擇一個數(shù)據(jù)挖掘系統(tǒng)時,在以上列出的諸多特征中,哪些是你要關(guān)心的?10.3、考察一個現(xiàn)存的商品化數(shù)據(jù)挖掘系統(tǒng)。從多個不同角度來看,分析這一系統(tǒng)的主要特征,包括可處理的數(shù)據(jù)類型,系統(tǒng)體系結(jié)構(gòu),數(shù)據(jù)源,數(shù)據(jù)挖掘功能,數(shù)據(jù)挖掘方法,與數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的耦合度,可伸縮性,可視化工具,和圖形用戶界面。能否對該系統(tǒng)提出一些改進(jìn)意見,并且概述其實現(xiàn)方法?10.4、提出幾種對音頻數(shù)據(jù)挖掘的實現(xiàn)方法??煞駥⒁纛l數(shù)據(jù)挖掘與可視化數(shù)據(jù)挖掘結(jié)合起來,使得數(shù)據(jù)挖掘有趣而強(qiáng)大?10.5、基于現(xiàn)有的對數(shù)據(jù)挖掘系統(tǒng)和應(yīng)用的只是,你認(rèn)為數(shù)據(jù)挖掘會成為一個巨大的市場嗎?數(shù)據(jù)挖掘研究與開發(fā)的瓶頸是什么?你認(rèn)為目前數(shù)據(jù)挖掘的方法會贏得巨大的系統(tǒng)應(yīng)用市場份額嗎?如果不是,你能提出一些建議嗎?10.6、直接查詢應(yīng)答與智能查詢應(yīng)答之間的區(qū)別是什么?假設(shè)一個用戶要查詢某度假區(qū)的旅館的價格、地址和等級。舉例來說明用直接查詢應(yīng)答與智能查詢應(yīng)答處理此查詢的情況。10.7、為什么說理論基礎(chǔ)的建立對數(shù)據(jù)挖掘十分重要的?列出并且描述現(xiàn)在已經(jīng)提出的數(shù)據(jù)挖掘的主要理論基礎(chǔ)。評論一下每一種理論是如何滿足(或者不滿足)數(shù)據(jù)挖掘的理想理論框架的要求。10.8、通用計算機(jī)加上于領(lǐng)域獨(dú)立的關(guān)系數(shù)據(jù)庫系統(tǒng)在過去的幾十年中,已經(jīng)形成一個巨大的市場。對數(shù)據(jù)挖掘而言,我們應(yīng)該致力于開發(fā)獨(dú)立于領(lǐng)域的數(shù)據(jù)挖掘系統(tǒng),還是應(yīng)當(dāng)開發(fā)特定領(lǐng)域的數(shù)據(jù)挖掘系統(tǒng)?請說出理由。