數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題.doc
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題.doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題.doc(9頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 習(xí)題1.1什么是數(shù)據(jù)挖掘?在你的回答中,強(qiáng)調(diào)以下問題: (a) 它是又一個(gè)騙局嗎? (b) 它是一種從數(shù)據(jù)庫(kù),統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)發(fā)展的技術(shù)的簡(jiǎn)單轉(zhuǎn)換嗎? (c) 解釋數(shù)據(jù)庫(kù)技術(shù)發(fā)展如何導(dǎo)致數(shù)據(jù)挖掘 (d) 當(dāng)把數(shù)據(jù)挖掘看作知識(shí)發(fā)現(xiàn)過程時(shí),描述數(shù)據(jù)挖掘所涉及的步驟。1.2 給出一個(gè)例子,其中數(shù)據(jù)挖掘?qū)τ谝环N商務(wù)的成功至關(guān)重要的。這種商務(wù)需要什么數(shù)據(jù)挖掘功能?他們能夠由數(shù)據(jù)查詢處理或簡(jiǎn)單的統(tǒng)計(jì)分析來實(shí)現(xiàn)嗎?1.3 假定你是Big-University的軟件工程師,任務(wù)是設(shè)計(jì)一個(gè)數(shù)據(jù)挖掘系統(tǒng),分析學(xué)校課程數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包括如下信息:每個(gè)學(xué)生的姓名,地址和狀態(tài)(例如,本科生或研究生),所修課程,以及他們累積的GPA(學(xué)分平均)。描述你要選取的結(jié)構(gòu)。該結(jié)構(gòu)的每個(gè)成分的作用是什么?1.4 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同?它們有那些相似之處? 15簡(jiǎn)述以下高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用:面向?qū)ο髷?shù)據(jù)庫(kù),空間數(shù)據(jù)庫(kù),文本數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù)和WWW。16 定義以下數(shù)據(jù)挖掘功能:特征化,區(qū)分,關(guān)聯(lián),分類,預(yù)測(cè),聚類和演變分析。使用你熟悉的現(xiàn)實(shí)生活中的數(shù)據(jù)庫(kù),給出每種數(shù)據(jù)挖掘的例子。17 區(qū)分和分類的差別是什么?特征化和聚類的差別是什么?分類和預(yù)測(cè)呢?對(duì)于每一對(duì)任務(wù),它們有何相似之處?18 根據(jù)你的觀察,描述一種可能的知識(shí)類型,它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但未在本章中列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎?1. 9 描述關(guān)于數(shù)據(jù)挖掘方法和用戶交互問題的三個(gè)數(shù)據(jù)挖掘的挑戰(zhàn)。 1. 10 描述關(guān)于性能問題的兩個(gè)數(shù)據(jù)挖掘的挑戰(zhàn)。 2.1 試述對(duì)于多個(gè)異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動(dòng)的方法(構(gòu)造使用數(shù)據(jù)倉(cāng)庫(kù)),而不愿使用查詢驅(qū)動(dòng)的方法(使用包裝程序和集成程序)。描述一些情況,其中查詢驅(qū)動(dòng)方法比更新驅(qū)動(dòng)方法更受歡迎。2.2 簡(jiǎn)略比較以下概念,可以用例子解釋你的觀點(diǎn)(a) 雪花模式、事實(shí)星座、星型網(wǎng)查詢模型(b) 數(shù)據(jù)清理、數(shù)據(jù)變換、刷新(c) 發(fā)現(xiàn)驅(qū)動(dòng)數(shù)據(jù)立方體、多特征方、虛擬倉(cāng)庫(kù)2.3 假定數(shù)據(jù)倉(cāng)庫(kù)包含三個(gè)維time,doctor和patient,兩個(gè)度量count 和charge,其中charge是醫(yī)生對(duì)一位病人的一次診治的收費(fèi)。(a) 列舉三種流行的數(shù)據(jù)倉(cāng)庫(kù)建模模式。(b) 使用(a)列舉的模式之一,畫出上面數(shù)據(jù)倉(cāng)庫(kù)的模式圖。(c) 由基本方體day,doctor,patient開始,為列出2000年每位醫(yī)生的收費(fèi)總數(shù),應(yīng)當(dāng)執(zhí)行哪些 OLAP操作?(d) 為得到同樣的結(jié)果,寫一個(gè)SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)中,其模式如下:fee(day,month,year, doctor,hospital,patient,count,charge)2.4 假定Big_University的數(shù)據(jù)倉(cāng)庫(kù)包含如下4個(gè)維student, course, semester和instructor,2個(gè)度量count和avg_grade。在最低的概念層(例如對(duì)于給定的學(xué)生、課程、學(xué)期和教師的組合),度量avg_grade存放學(xué)生的實(shí)際成績(jī)。在較高的概念層,avg_grade存放給定組合的平均成績(jī)。(a) 為數(shù)據(jù)倉(cāng)庫(kù)畫出雪花模式圖;(b) 由基本方體 student, course, semester, instructor開始,為列出Big_University每個(gè)學(xué)生的CS課程的平均成績(jī),應(yīng)當(dāng)使用哪些OLAP操作(如由 semester上卷到y(tǒng)ear);(c) 如果每維有5層(包括all),如studentMAJORSTATUSUNIVERSITY 2.5 假定數(shù)據(jù)倉(cāng)庫(kù)包含4個(gè)維date,spectator,location和game,2個(gè)度量count和charge。其中charge是觀眾在給定的日期觀看節(jié)目的付費(fèi)。觀眾可以是學(xué)生、成年人或老人,每類觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。(a ) 畫出該數(shù)據(jù)倉(cāng)庫(kù)的星型模式圖;(b) 由基本方體date,spectator,location,game開始,為列出2000年學(xué)生觀眾在GM-Place的總付費(fèi),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?(c) 對(duì)于數(shù)據(jù)倉(cāng)庫(kù),位圖索引是有用的。以該數(shù)據(jù)立方體為例,簡(jiǎn)略討論使用位圖索引結(jié)構(gòu)的優(yōu)點(diǎn)和問題。2.6 為地區(qū)氣象局設(shè)計(jì)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。氣象局大約有1000觀察點(diǎn),散步在該地區(qū)的陸地、海洋,收集基本氣象數(shù)據(jù),包括每小時(shí)的氣壓、溫度、降雨量。所有的數(shù)據(jù)都送到中心站,那里已收集了這種數(shù)據(jù)長(zhǎng)達(dá)十年。你的設(shè)計(jì)應(yīng)當(dāng)有利于有效的查詢和聯(lián)機(jī)分析處理,有利于有效地導(dǎo)出多維空間的一般天氣模式。2.7 關(guān)于數(shù)據(jù)立方體中的度量計(jì)算:(a) 根據(jù)計(jì)算數(shù)據(jù)立方體所用的聚集函數(shù),列出度量的三種分類;(b) 對(duì)于具有三個(gè)維time,location和product的數(shù)據(jù)立方體,函數(shù)variance屬于哪一類?如果立方體被分割成一些塊,描述如何計(jì)算它;(c) 假定函數(shù)是最高的10個(gè)銷售額。討論如何在數(shù)據(jù)立方體里有效的計(jì)算該度量。2.8 假定需要在數(shù)據(jù)立方體中記錄三種度量:min,average和median。給定的數(shù)據(jù)立方體允許遞增的刪除(即每次一小部分),為每種度量設(shè)計(jì)有效的計(jì)算和存儲(chǔ)方法。2.9 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)的流行方法是構(gòu)造一個(gè)稱為數(shù)據(jù)立方體的多維數(shù)據(jù)庫(kù)。不幸的是,這常常產(chǎn)生大的、稀疏的多維矩陣。(a) 給出一個(gè)例子,解釋這種大的、稀疏的數(shù)據(jù)立方體;(b) 設(shè)計(jì)一種實(shí)現(xiàn)方法,可以很好的克服這種稀疏矩陣問題。注意,需要詳細(xì)解釋你的數(shù)據(jù)結(jié)構(gòu),討論空間需求量,以及如何由你的結(jié)構(gòu)中檢索數(shù)據(jù);(c) 修改你在(b)的設(shè)計(jì),處理遞增的數(shù)據(jù)更新。給出你的新設(shè)計(jì)的理由。2.10 假定數(shù)據(jù)倉(cāng)庫(kù)包含20個(gè)維,每個(gè)維有5級(jí)粒度。(a)用戶感興趣的主要是4個(gè)特定的維,每維有3個(gè)上卷、下鉆頻繁訪問的級(jí)。你如何設(shè)計(jì)數(shù)據(jù)立方結(jié)構(gòu),有效地對(duì)此予以支持?(b)用戶時(shí)常想由一兩個(gè)特定的維鉆透數(shù)據(jù)立方體,到原始數(shù)據(jù)。你如何支持這一特征?2.11 假定基本立方體有三個(gè)維A,B,C,其單元數(shù)如下:|A|=1000000, |B|=100,|C|=1000。假定分塊將每維分成10部分。(a)假定每維只有一層,畫出完整的立方體的格。(b)如果每個(gè)立方單元存放一個(gè)4字節(jié)的度量,若方是稠密的,所計(jì)算的立方體有多大?(c)指出立方體中空間需求量最小的塊計(jì)算次序,并對(duì)計(jì)算維平面所需要的內(nèi)存空間計(jì)算空間量。31 數(shù)據(jù)的質(zhì)量可以用精確性,完整性和一致性來評(píng)估。提出兩種數(shù)據(jù)質(zhì)量的其他尺度。32 在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。33 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52, 70 (a) 使用按箱平均值平滑對(duì)以上數(shù)據(jù)進(jìn)行平滑,箱的深度是3。解釋你的步驟。評(píng)論對(duì)于給定的數(shù)據(jù),該技術(shù)的效果 (b) 你怎樣確定數(shù)據(jù)中的孤立點(diǎn)? (c) 對(duì)于數(shù)據(jù)平滑,還有那些其他方法?34 討論數(shù)據(jù)集成需要考慮的問題。 (1) 模式識(shí)別:這主要是實(shí)體識(shí)別問題 (2) 冗余:一個(gè)屬性是冗余的,即它能由另一個(gè)表導(dǎo)出,如果屬性或唯的命名不一致,也可能導(dǎo)致冗余,可以用相關(guān)分析來檢測(cè) (3) 數(shù)據(jù)值沖突的檢測(cè)與處理:有些屬性因表示比例或編碼不同,會(huì)導(dǎo)致屬性不同35 使用習(xí)題3。3給出的age數(shù)據(jù),回答以下問題: (a) 使用最小-最大規(guī)范化,將age值35轉(zhuǎn)換到0。0,1。0區(qū)間 (b) 使用z-score規(guī)范化轉(zhuǎn)換age 值35,其中age的標(biāo)準(zhǔn)差為12。94年 (c) 使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換age值35。 (d) 指出對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。36 使用流程圖概述如下屬性子集選擇過程 (a) 逐步向前選擇 (b) 逐步向后刪除 (c) 逐步向前選擇和逐步向后刪除的結(jié)合3.7使用習(xí)題3.3給出的age數(shù)據(jù) (a)畫一個(gè)寬度為10的等寬直方圖。 (b)為如下每種選樣技術(shù)勾畫例子: SRSWOR, SRSWR, 聚類選擇,分層選擇。使用長(zhǎng)度為5的樣本和層young,middle_aged和senior。3.8 對(duì)如下問題,使用偽代碼或你喜歡用的程序設(shè)計(jì)語言,給出算法: (a)對(duì)于分類數(shù)據(jù),基于給定模式中屬性的不同值得個(gè)數(shù),自動(dòng)產(chǎn)生概念分層。 (b)對(duì)于數(shù)值數(shù)據(jù),基于等寬劃分規(guī)則,自動(dòng)產(chǎn)生概念分層。 (c)對(duì)于數(shù)值數(shù)據(jù),基于等深劃分規(guī)則,自動(dòng)產(chǎn)生概念分層。4.1列出和描述說明數(shù)據(jù)挖掘任務(wù)的五種原語。4.2 說明為什么概念分層在數(shù)據(jù)挖掘中是有用的。4.3 概念分層的四種主要類型是:模式分層,集合分組分層,操作導(dǎo)出的分層和基于規(guī)則的分層。 a)簡(jiǎn)略定義每種類型的分層。 b)對(duì)于每種類型的分層,給出一個(gè)不在本章中出現(xiàn)的例子。4.4 考慮下面的由Big-University 的學(xué)生數(shù)據(jù)庫(kù)挖掘的關(guān)聯(lián)規(guī)則major (X,science)=status(X,undergrad) (4.8)假定學(xué)校的學(xué)生人數(shù)(即任務(wù)相關(guān)的元組數(shù))為5000,其中56%的在校本科生的專業(yè)是科學(xué),64%的學(xué)生注冊(cè)本科學(xué)位課程,70%的學(xué)生主修科學(xué)。a) 計(jì)算規(guī)則(4.8)的支持度和置信度。b)考慮下面的規(guī)則(4.9): major(X,biology)=status(X,undergrad) 17%,80% (4.9) 假定主攻科學(xué)的學(xué)生30%專業(yè)為biology。與規(guī)則(4.8)對(duì)比,你認(rèn)為規(guī)則(4.9)新穎嗎? 解釋你的結(jié)論。4.5 語句可以用于挖掘特征化,區(qū)分,關(guān)聯(lián)和分類規(guī)則。為聚類的挖掘提出一個(gè)語法定義。4.6 論建立標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘查詢語言的重要性。涉及這一任務(wù)的一些潛在好處和挑戰(zhàn)是什么?列舉一些該領(lǐng)域的最近提議。4.7 下面的練習(xí)涉及定義概念分層的DMQL語法。 (a) 典型情況,對(duì)于模式date(day,month,quarter,year),數(shù)據(jù)挖掘系統(tǒng)有一個(gè)預(yù)定義的概念分層。使用DMQL提供該概念分層的定義。 (b) 概念分層定義可能涉及多個(gè)關(guān)系。例如,iterm_hierachy可以涉及兩個(gè)關(guān)系item和supplier,由如下模式定義: item(item_ID, brand, type, place_made, supplier) supplier(name, type, headquarter_location, owner, size, assets, revenue)5.1對(duì)于類特征化, 基于數(shù)據(jù)立方體的實(shí)現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實(shí)現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。5.2 假定下面的表從面向?qū)傩缘臍w納導(dǎo)出 class &n bsp; birth- place count &n bsp; Cannada &nbs p; 180programmer others ; 120 &nbs p; Cannada &nbs p; 20Dba &n bsp; others ; 80(a) 將該表轉(zhuǎn)換成現(xiàn)實(shí)相關(guān)t-權(quán)和d-權(quán)的交叉表(b) 將類Programmer轉(zhuǎn)換成(雙向的)量化描述規(guī)則。例如 (birth_place(X)=Canada.)t:x%,d:y%.(.)(t:w%,d:z%。?X,Programmer(X)5.3 討論為什么需要解析特征化和如何進(jìn)行。比較兩種歸納方法的結(jié)果:(I)包含相關(guān)分析和(ii)不包含相關(guān)分析。5.4 對(duì)于數(shù)據(jù)離散的特征化,另外給出三個(gè)常用統(tǒng)計(jì)度量(未在本章說明),并討論如何在大型數(shù)據(jù)庫(kù)中有效地計(jì)算它們。5.5 假定分析數(shù)據(jù)包含屬性age.數(shù)據(jù)元組的age值(以遞增次序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70A 該數(shù)據(jù)的平均值是多少?中位數(shù)是多少?B 該數(shù)據(jù)的模是多少?評(píng)論數(shù)據(jù)的模態(tài)性(即雙模態(tài),三模態(tài)等).C 數(shù)據(jù)的中列數(shù)是什么D 你能找出(粗略地)數(shù)據(jù)的第一個(gè)四分位數(shù)(q1)和第三個(gè)四分位數(shù)(Q3)嗎?E 給出數(shù)據(jù)的五數(shù)概括F 畫出數(shù)據(jù)的盒圖G 分位數(shù)-分位數(shù)圖與分位數(shù)圖的不同之處是什么?5.6 給定由數(shù)據(jù)庫(kù)DB導(dǎo)出的概化關(guān)系R,假定元組的集合 DB需要從DB中刪除,簡(jiǎn)要給出用于R的必要?jiǎng)h除的增量更新過程。5.7 簡(jiǎn)要給出挖掘解析類比較的基于數(shù)據(jù)立方體的增量算法。 5.8 簡(jiǎn)要給出數(shù)據(jù)立方體環(huán)境下數(shù)據(jù)離散統(tǒng)計(jì)度量的()并行和( )分布式挖掘方法。61 Apriori 算法使用子集支持度性質(zhì)的先驗(yàn)知識(shí)a) 證明頻繁項(xiàng)集的所有非空子集必須也是頻繁的。b) 證明項(xiàng)集s的任意非空子集s的支持度至少和s的支持度一樣大。c) 給定頻繁項(xiàng)集l和l的子集s,證明規(guī)則s=(l-s)的置信度不可能大于s=(l-s)的置信度。其中,s是s的子集。d) Apriori的一種變形將事務(wù)數(shù)據(jù)庫(kù)D中的事務(wù)劃分成n個(gè)不重疊的部分。證明在D中是頻繁的任何項(xiàng)集至少在D的一個(gè)部分中是頻繁的。62 數(shù)據(jù)庫(kù)有4個(gè)事務(wù)。設(shè)min_sup = 60%,min_conf = 80%。 TID DATE ITEMS_BOUGHTT100 10/15/99 K, A, D, BT200 10/15/99 D, A, C, E, B T300 10/19/99 C, A, B, ET400 10/22/99 B, A, DA) 分別使用Apriori 和FP- 增長(zhǎng)算法找出頻繁項(xiàng)集。比較兩種挖掘過程的有效性。B) 列出所有強(qiáng)關(guān)聯(lián)規(guī)則,他們與下面的元規(guī)則匹配,其中,X 是代表顧客的變量,item 時(shí)表示項(xiàng)的變量: xtransaction, buys(X, item1)buys(X, item2) = buys(X, item3) s, c63 在挖掘?qū)咏徊骊P(guān)聯(lián)規(guī)則時(shí),假定發(fā)現(xiàn)項(xiàng)集IBM desktop computer, printer不滿足最小支持度。這一信息可以用來剪去諸如IBM desktop computer, b/w printer的后代項(xiàng)集的挖掘嗎?給出一個(gè)一般規(guī)則,解釋這一信息如何用于對(duì)搜索空間剪枝。64 給出一個(gè)短例子,表明強(qiáng)關(guān)聯(lián)規(guī)則中的項(xiàng)可能實(shí)際上是負(fù)相關(guān)的。 65 下面的相依表匯總了超級(jí)市場(chǎng)的事務(wù)數(shù)據(jù),其中,hot dogs 表示包含熱狗的事務(wù),hotdogs 表示不包含熱狗的事務(wù),hamburgers 表示包含漢堡包的事務(wù),hamburgers 表示不包含漢堡包的事務(wù)。 Hotdogs hotdogs Hamburgers 2000 500 2500hamburgers 1000 1500 2500 col 3000 2000 5000A) 假定發(fā)現(xiàn)關(guān)聯(lián)規(guī)則hotdogs=hamburgers 。給定最小支持度閾值25% ,最小置信度閾值 50% ,該關(guān)聯(lián)規(guī)則是強(qiáng)的嗎?B) 根據(jù)給定的數(shù)據(jù),買hotdog 獨(dú)立于買hamburgers 嗎?如果不是,二者之間存在何種相關(guān)聯(lián)系? 66 數(shù)據(jù)庫(kù)有4 個(gè)事務(wù),設(shè) min_sup = 60% , min_conf = 80% 。Cust_ID TID Items_bought(以brand- item_category形式)01 T100 Kings-Carb, Sunset-Milk, Dairyland-Cheese, best-Bread02 T200 Best-Cheese, Dairyland-Milk, Goldenfarm-Apple, Tasty-Pie, Wonder-Bread01 T300 Westcoast-Apple, Dairyland- Milk, Wonder-Bread, Tasty-Pie03 T400 Wonder-Bread, Sunset-Milk, Dairyland-Cheesea) 在 item_category 粒度(例如,itemi 可以是milk ),對(duì)于下面規(guī)則模板 xtransaction, buys(X, item1)buys(X, item2) = buys(X, item3) s, c對(duì)于最大的k,列出頻繁k-項(xiàng)集和包含最大的k的頻繁k-項(xiàng)集的所有強(qiáng)關(guān)聯(lián)規(guī)則。b) 在brand-item_category 粒度(例如:item 可以是sunset-milk ),對(duì)于下面的規(guī)則模板: xcustomer, buys(X, item1)buys(X, item2) = buys(X, item3) 對(duì)最大的k,列出頻繁k-項(xiàng)集。注意:不打印任何規(guī)則。6.7 假定一個(gè)大型存儲(chǔ)具有分布在4個(gè)站點(diǎn)的事務(wù)數(shù)據(jù)庫(kù)。每個(gè)成員數(shù)據(jù)庫(kù)中的事務(wù)具有相同的格式Tj:i1,.,im;其中,Tj是事務(wù)標(biāo)示符,而ik(1=k=m)是事務(wù)中購(gòu)買的商品標(biāo)識(shí)符。提出一個(gè)有效的算法,挖掘全局關(guān)聯(lián)規(guī)則(不考慮多層關(guān)聯(lián)規(guī)則)。可以給出你的算法的要點(diǎn)。你的算法不必將所有的數(shù)據(jù)移到一個(gè)站點(diǎn),并且不造成過度的網(wǎng)絡(luò)通信開銷。6.8 假定大型事務(wù)數(shù)據(jù)庫(kù)DB的頻繁項(xiàng)集已經(jīng)存儲(chǔ)。討論:如果新的事務(wù)集DB(增量地)加進(jìn),在相同的最小支持度閾值下,如何有效地挖掘(全局)關(guān)聯(lián)規(guī)則?6.9 提出并給出挖掘多層關(guān)聯(lián)規(guī)則的層共享挖掘方法的要點(diǎn)。其中,每個(gè)項(xiàng)用它的層位置編碼,一次初始數(shù)據(jù)庫(kù)掃描收集每個(gè)概念層的每個(gè)項(xiàng)的計(jì)數(shù),識(shí)別頻繁和子頻繁項(xiàng)集。將用該方法挖掘多層關(guān)聯(lián)規(guī)則與挖掘單層關(guān)聯(lián)規(guī)則的花費(fèi)進(jìn)行比較。6.10 證明:包含項(xiàng)h和其祖先h的項(xiàng)集H的支持度與項(xiàng)集H-h的支持度相同。解釋如何將它用于層交叉關(guān)聯(lián)規(guī)則挖掘。6.11 提出一種挖掘混合維關(guān)聯(lián)規(guī)則(多維關(guān)聯(lián)規(guī)則帶有重復(fù)謂詞)的方法。6.12 序列模式可以用類似于關(guān)聯(lián)規(guī)則挖掘的方法挖掘。設(shè)計(jì)一個(gè)有效的算法,由事務(wù)數(shù)據(jù)庫(kù)挖掘多層序列模式。這種模式的一個(gè)例子如下:買PC的顧客在三個(gè)月內(nèi)將買Microsoft軟件,在其上,可以下鉆,發(fā)現(xiàn)該模式的更詳細(xì)的版本,如買Pentium PC的顧客在三個(gè)月內(nèi)將買Microsoft Office。6.13 商店里每種商品的價(jià)格是非負(fù)的。商店經(jīng)理只關(guān)心如下形式的規(guī)則:一件免費(fèi)商品可能觸發(fā)在同一事務(wù)中$200的總購(gòu)物。陳述如何有效地挖掘這種規(guī)則。6.14 商店里每種商品的價(jià)格是非負(fù)的。對(duì)于以下每種情況,識(shí)別它們提供的約束類型,并簡(jiǎn)略討論如何有效地挖掘這種關(guān)聯(lián)規(guī)則。(a) 至少包含一件Nintendo游戲。(b) 包含一些商品,它們的單價(jià)和小于$150。(c) 包含一件免費(fèi)商品,并且其它商品的單價(jià)和至少是$200。(d) 所有商品的平均價(jià)格在$100和$500之間。7.1 簡(jiǎn)述判定樹分類的主要步驟。 7.2 在判定樹歸納中,為什么樹剪枝是有用的?用一個(gè)單獨(dú)的樣本集計(jì)值剪枝的缺點(diǎn)是什么? 7.3 為什么樸素貝葉斯分類稱為樸素的?簡(jiǎn)述樸素貝葉斯分類的主要思想。 7.4 比較急切分類(如判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對(duì)于懶散分類(如,k-最臨近、基于案例的推理)的優(yōu)缺點(diǎn)。 7.5 通過對(duì)預(yù)測(cè)變量的變換,有些非線性回歸模型可以轉(zhuǎn)換成線性的。指出如何將非線性回歸方程Y=aXb轉(zhuǎn)換成可以用最小平方法求解的線性回歸方程。 7.6 什么是推進(jìn)?陳述它為何能提高判定樹歸納的準(zhǔn)確性。 的表決,這里每個(gè)分類法的表決是其準(zhǔn)確率的函數(shù)。推進(jìn)算法也可以擴(kuò)充到連續(xù)值預(yù)測(cè)。 7.7 證明準(zhǔn)確率是靈敏性和特效性度量的函數(shù),即證明( 7.31 )式。 7.8 當(dāng)一個(gè)數(shù)據(jù)對(duì)象可以同時(shí)屬于多個(gè)類時(shí),很難評(píng)估分類的準(zhǔn)確率。陳述在這種情況下,你將使用何種標(biāo)準(zhǔn)比較在相同數(shù)據(jù)上的建模的不同分類方法。 7.9 給定判定樹,你有選擇:(a)將判定樹轉(zhuǎn)換成規(guī)則,然后對(duì)結(jié)果規(guī)則剪枝,或(b) 對(duì)判定樹剪枝,然后將剪枝后的樹轉(zhuǎn)換成規(guī)則。相對(duì)于(b),(a)的優(yōu)點(diǎn)是什么?7.10 給定k和描述每個(gè)樣本的屬性數(shù)n,寫一個(gè)k-最臨近分類算法。7.11 下表給出課程數(shù)據(jù)庫(kù)中學(xué)生的期中和期末考試成績(jī)。X其中考試 Y期末考試 72 8450 6381 7774 7894 9086 7559 4983 7965 7 733 5288 7481 90(a) 繪數(shù)據(jù)圖。X和Y看上去具有線性聯(lián)系嗎?(b) 使用最小二乘法,求由學(xué)生的期中成績(jī)預(yù)測(cè)學(xué)生的期末成績(jī)的方程式。(c) 預(yù)測(cè)期中成績(jī)?yōu)?6分的學(xué)生的期末成績(jī)。7.12 下表有雇員數(shù)據(jù)庫(kù)的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已概化。對(duì)于給定的行, count表示department,status, age和salary在該行上具有給定值的元組數(shù)。 department Status Age Salary countsales senior 31.35 46K.50K 30sales& nbsp;junior 26.30 26K.30K 40sales junior 31.35 31K.35K 40systems juni or 21.25 46K.50K 20systems senior 31.35 66K.70K 5systems junior 26.30 46K.50K 3systems senior 41.45 66K.70K 3marketing senior 36.40 46K.50K 10marketing junior 31.35 41K.45K 4secretary senior 46.50&nbs p;36K.40K 4secretary junior 26.30 26K.30K 6設(shè)salary是類標(biāo)號(hào)屬性。(a) 你將如何修改ID3算法,以便考慮每個(gè)概化數(shù)據(jù)元組(即每一行)的count?(b) 使用你修改過的ID3算法,構(gòu)造給定數(shù)據(jù)的判定樹。(c) 給定一個(gè)數(shù)據(jù)樣本,它在屬性department,status和age上的值分別為systems,junior和20.24。該樣本的salary的樸素貝葉斯分類是什么?(d) 為給定的數(shù)據(jù)設(shè)計(jì)一個(gè)多層前饋神經(jīng)網(wǎng)絡(luò)。標(biāo)記輸入和輸出層節(jié)點(diǎn)。(e) 使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓(xùn)練實(shí)例(sales,senior,31.35,46K.50K),給出后向傳播算法一次迭代后的權(quán)值。指出你使用的初始權(quán)值和偏置以及學(xué)習(xí)率。8.1 給定年齡 age 的變量的如下度量值:18 ,22 , 25 ,42 ,28 , 43 ,33 ,35 , 56 ,28 通過如下的方法進(jìn)行變量標(biāo)準(zhǔn)化: a) 計(jì)算age 的平均絕對(duì)誤差。 b) 計(jì)算頭四個(gè)值的z score 。8.2 給定兩個(gè)對(duì)象,分別用元組(22 ,1 , 42 ,10 )和(20 , 0 ,36 ,8 )表示 a) 計(jì)算兩個(gè)對(duì)象之間的歐幾里的距離 b) 計(jì)算兩個(gè)對(duì)象之間的曼哈坦距離計(jì)算兩個(gè)對(duì)象間的明考斯基距離,q3。8.3 什么是聚類?簡(jiǎn)單描述下列聚類方法:劃分方法,層次方法,基于密度的方法,基于網(wǎng)格的方法,以及基于模型的方法。為每種方法給出例子。8.4 假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下8 個(gè)點(diǎn)(用(x , y )代表位置)聚類為3 個(gè)簇: A1 ( 2 ,10 ),A2 ( 2 ,5 ),A3 ( 8 ,4 ),B1 ( 5 ,8 ),B2 ( 7 ,5 ),B3 ( 6 ,4 ),C1 ( 1 ,2 ),C2 ( 4 ,9 ) 距離函數(shù)是歐幾里的距離。假設(shè)初始選擇A1 ,B1 , C1 分別為每個(gè)聚類的中心。請(qǐng)用K 平均算法給出 a) 第一次循環(huán)執(zhí)行后的三個(gè)聚類中心; b) 最后的三個(gè)簇。8.5 人眼在判斷聚類方法對(duì)二位數(shù)據(jù)的聚類質(zhì)量上是快速而有效的。你能否設(shè)計(jì)出一個(gè)數(shù)據(jù)可視的方法類似數(shù)據(jù)聚類可視化和幫助人們判斷三維數(shù)據(jù)的聚類質(zhì)量。對(duì)更高維的數(shù)據(jù)如何?8.6 給出如何集成特定聚類算法的例子,例如,什么情況下一個(gè)聚類算法被用作另一個(gè)算法的預(yù)處理。9.1異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)由多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)組成,這些數(shù)據(jù)庫(kù)的定義是相互獨(dú)立的,但彼此間需要一定的信息交換,能夠處理局部和全局查詢。試述在這種系統(tǒng)中如何使用基于概化的方法處理描述性挖掘查詢。9.2對(duì)象立方體的建立,可以在執(zhí)行多維概化之前通過把面向?qū)ο蟮臄?shù)據(jù)庫(kù)概化為結(jié)構(gòu)化數(shù)據(jù)來完成。試述如何在對(duì)象立方體中處理集合值數(shù)據(jù)。9.3 空間關(guān)聯(lián)挖掘可以至少按如下兩種方式加以實(shí)現(xiàn):(i)基于挖掘查詢的要求,可以動(dòng)態(tài)計(jì)算不同空間對(duì)象之間的空間關(guān)聯(lián)關(guān)系;(ii)預(yù)先計(jì)算出空間對(duì)象間的空間距離,使得關(guān)聯(lián)挖掘可以基于這些預(yù)計(jì)算結(jié)果求得。試述(i)如何高效實(shí)現(xiàn)上述方法;(ii)各方法的適用條件。9.4假設(shè)某城市的交通部門需要規(guī)劃高速公路的建設(shè),為此希望根據(jù)每天不同時(shí)刻收集到的交通數(shù)據(jù)進(jìn)行有關(guān)高速公路大通方面的數(shù)據(jù)分析。(a)設(shè)計(jì)一存儲(chǔ)高速公路交通信息的空間數(shù)據(jù)倉(cāng)庫(kù),可以方便地支持人們按高速公路、按一天的時(shí)間和按工作日查看平均的和高峰時(shí)間的交通流量,以及在發(fā)生重大交通事故時(shí)的交通狀況。(b)可以從該空間數(shù)據(jù)倉(cāng)庫(kù)中挖掘什么樣的信息用于支持城市規(guī)劃人員?(c)該數(shù)據(jù)倉(cāng)庫(kù)既包含了空間數(shù)據(jù),也包含了時(shí)態(tài)數(shù)據(jù)。設(shè)計(jì)一種挖掘技術(shù),可以高效地從該空間時(shí)態(tài)數(shù)據(jù)倉(cāng)庫(kù)挖掘有意義的模式。9.5 多媒體中的相似檢索已經(jīng)成為多媒體數(shù)據(jù)檢索系統(tǒng)開發(fā)中的主要內(nèi)容。然而,許多多媒體數(shù)據(jù)挖掘方法只是基于孤立的簡(jiǎn)單多媒體特征分析,如顏色、形狀、描述、關(guān)鍵字,等等。(a)請(qǐng)指出將數(shù)據(jù)挖掘與基于相似性的檢索結(jié)合,可以給多媒體數(shù)據(jù)挖掘帶來重要的進(jìn)步??梢杂萌我粩?shù)據(jù)挖掘技術(shù)為例,如多維分析、分類、關(guān)聯(lián)或聚類等。(b)請(qǐng)概述應(yīng)用基于相似性的搜索方法增強(qiáng)多媒體數(shù)據(jù)中聚類質(zhì)量的實(shí)現(xiàn)技術(shù)。9.6假設(shè)一供電站保存了按時(shí)間和按地區(qū)的能源消耗量,和每一地區(qū)每一用戶的能源使用信息。討論在這一時(shí)序數(shù)據(jù)庫(kù)中,如何解決如下問題:(a)找出星期五某一給定地區(qū)的相似的能源消耗曲線;(b)當(dāng)能源消耗曲線急劇上升時(shí),20分鐘內(nèi)會(huì)發(fā)生什么情況?(c)如何找出可以區(qū)分穩(wěn)定能源消耗地區(qū)與不穩(wěn)定能源消耗地區(qū)的最突出特征? 9.7假設(shè)某連鎖餐廳想挖掘出與主要體育事件相關(guān)的顧客行為,如每當(dāng)電視播出法裔加拿大人的曲棍球比賽時(shí),肯德雞的銷量會(huì)在比賽前一小時(shí)上升20。(a)給出一種找出這種模式的有效方法。(b )大部分與時(shí)間相關(guān)的關(guān)聯(lián)挖掘算法都使用了類Apriori算法來挖掘此類模式。6.2.4節(jié)中介紹的基于數(shù)據(jù)庫(kù)投影的頻繁模式(FP)增長(zhǎng)方法,對(duì)挖掘頻繁項(xiàng)集是十分有效的??煞駭U(kuò)展FP增長(zhǎng)方法去找出此類與時(shí)間相關(guān)的模式?9.8一個(gè)電子郵件數(shù)據(jù)庫(kù)是指包含了大量電子郵件(e-mail)信息的數(shù)據(jù)庫(kù)。它可以被視為主要包含文本數(shù)據(jù)的半結(jié)構(gòu)化數(shù)據(jù)庫(kù)。討論以下問題:(a)如何使一個(gè)e-mail數(shù)據(jù)庫(kù)變成結(jié)構(gòu)化的,以便支持多維檢索,如按發(fā)送者、接受者、主題和時(shí)問等的檢索。(b)從e-mail數(shù)據(jù)庫(kù)中可以挖掘什么信息?(c )假設(shè)對(duì)以前的一組e-mail 信息有一個(gè)粗略的對(duì)類,如junk (垃圾),unimportant (不重要),normal (一般),或important (重要),試論述一數(shù)據(jù)挖掘系統(tǒng)如何以此為訓(xùn)練集來自動(dòng)分類新的e-mail 消息或反分類(unclassify )e-mail 信息。10.1. 給出一個(gè)數(shù)據(jù)挖掘的例子,并且討論在此應(yīng)用中如何使用各種不同的數(shù)據(jù)挖掘方法10.2假設(shè)要在市場(chǎng)上購(gòu)買一個(gè)數(shù)據(jù)挖掘系統(tǒng)(a)考慮數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)耦合方式,試述無耦合、松耦合、半緊耦合和緊耦合之間的區(qū)別;(b)行可伸縮性和列可伸縮性之間的區(qū)別是什么?(c)當(dāng)選擇一個(gè)數(shù)據(jù)挖掘系統(tǒng)時(shí),在以上列出的諸多特征中,哪些是你要關(guān)心的?10.3、考察一個(gè)現(xiàn)存的商品化數(shù)據(jù)挖掘系統(tǒng)。從多個(gè)不同角度來看,分析這一系統(tǒng)的主要特征,包括可處理的數(shù)據(jù)類型,系統(tǒng)體系結(jié)構(gòu),數(shù)據(jù)源,數(shù)據(jù)挖掘功能,數(shù)據(jù)挖掘方法,與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的耦合度,可伸縮性,可視化工具,和圖形用戶界面。能否對(duì)該系統(tǒng)提出一些改進(jìn)意見,并且概述其實(shí)現(xiàn)方法?10.4、提出幾種對(duì)音頻數(shù)據(jù)挖掘的實(shí)現(xiàn)方法??煞駥⒁纛l數(shù)據(jù)挖掘與可視化數(shù)據(jù)挖掘結(jié)合起來,使得數(shù)據(jù)挖掘有趣而強(qiáng)大?10.5、基于現(xiàn)有的對(duì)數(shù)據(jù)挖掘系統(tǒng)和應(yīng)用的只是,你認(rèn)為數(shù)據(jù)挖掘會(huì)成為一個(gè)巨大的市場(chǎng)嗎?數(shù)據(jù)挖掘研究與開發(fā)的瓶頸是什么?你認(rèn)為目前數(shù)據(jù)挖掘的方法會(huì)贏得巨大的系統(tǒng)應(yīng)用市場(chǎng)份額嗎?如果不是,你能提出一些建議嗎?10.6、直接查詢應(yīng)答與智能查詢應(yīng)答之間的區(qū)別是什么?假設(shè)一個(gè)用戶要查詢某度假區(qū)的旅館的價(jià)格、地址和等級(jí)。舉例來說明用直接查詢應(yīng)答與智能查詢應(yīng)答處理此查詢的情況。10.7、為什么說理論基礎(chǔ)的建立對(duì)數(shù)據(jù)挖掘十分重要的?列出并且描述現(xiàn)在已經(jīng)提出的數(shù)據(jù)挖掘的主要理論基礎(chǔ)。評(píng)論一下每一種理論是如何滿足(或者不滿足)數(shù)據(jù)挖掘的理想理論框架的要求。10.8、通用計(jì)算機(jī)加上于領(lǐng)域獨(dú)立的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)在過去的幾十年中,已經(jīng)形成一個(gè)巨大的市場(chǎng)。對(duì)數(shù)據(jù)挖掘而言,我們應(yīng)該致力于開發(fā)獨(dú)立于領(lǐng)域的數(shù)據(jù)挖掘系統(tǒng),還是應(yīng)當(dāng)開發(fā)特定領(lǐng)域的數(shù)據(jù)挖掘系統(tǒng)?請(qǐng)說出理由。- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù) 挖掘 習(xí)題
鏈接地址:http://m.italysoccerbets.com/p-6593487.html