數據倉庫與數據挖掘考試試題.doc
《數據倉庫與數據挖掘考試試題.doc》由會員分享,可在線閱讀,更多相關《數據倉庫與數據挖掘考試試題.doc(4頁珍藏版)》請在裝配圖網上搜索。
一、 填空題(15分) 1.數據倉庫的特點分別是 面向主題 、 集成 、 相對穩(wěn)定 、反映歷史變化。 2.元數據是描述數據倉庫內數據的結構和建立方法的數據。根據元數據用途的不同可將元數據分為 技術 元數據和 業(yè)務 元數據兩類。 3.OLAP技術多維分析過程中,多維分析操作包括 切片 、 切塊 、 鉆取 、 旋轉 等。 4.基于依賴型數據集市和操作型數據存儲的數據倉庫體系結構常常被稱為“ 中心和輻射 ”架構,其中 企業(yè)級數據倉庫 是中心,源數據系統(tǒng)和數據集市在輸入和輸出范圍的兩端。 5.ODS實際上是一個集成的、 面向主題的 、 可更新的 、 當前值的 、 企業(yè)級的 、詳細的數據庫,也叫運營數據存儲。 二、 多項選擇題(10分) 6.在數據挖掘的分析方法中,直接數據挖掘包括( ACD ) A 分類 B 關聯(lián) C 估值 D 預言 7.數據倉庫的數據ETL過程中,ETL軟件的主要功能包括(ABC) A 數據抽取 B 數據轉換 C 數據加載 D 數據稽核 8.數據分類的評價準則包括( ABCD ) A 精確度 B 查全率和查準率 C F-Measure D 幾何均值 9.層次聚類方法包括( BC ) A 劃分聚類方法 B 凝聚型層次聚類方法 C 分解型層次聚類方法 D 基于密度聚類方法 10.貝葉斯網絡由兩部分組成,分別是( A D ) A 網絡結構 B 先驗概率 C 后驗概率 D 條件概率表 三、 計算題(30分) 11.一個食品連鎖店每周的事務記錄如下表所示,其中每一條事務表示在一項收款機業(yè)務中賣出的項目,假定supmin=40%,confmin=40%,使用Apriori算法計算生成的關聯(lián)規(guī)則,標明每趟數據庫掃描時的候選集和大項目集。(15分) 事務 項目 事務 項目 T1 T2 T3 面包、果凍、花生醬 面包、花生醬 面包、牛奶、花生醬 T4 T5 啤酒、面包 啤酒、牛奶 解:(1)由I={面包、果凍、花生醬、牛奶、啤酒}的所有項目直接產生1-候選C1,計算其支持度,取出支持度小于supmin的項集,形成1-頻繁集L1,如下表所示: 項集C1 支持度 項集L1 支持度 {面包} {花生醬} {牛奶} {啤酒} 4/5 3/5 2/5 2/5 {面包} {花生醬} {牛奶} {啤酒} 4/5 3/5 2/5 2/5 (2)組合連接L1中的各項目,產生2-候選集C2,計算其支持度,取出支持度小于supmin的項集,形成2-頻繁集L2,如下表所示: 項集C2 支持度 項集L2 支持度 {面包、花生醬} 3/5 {面包、花生醬} 3/5 至此,所有頻繁集都被找到,算法結束, 所以,confidence({面包}→{花生醬})=(4/5)/(3/5)=4/3> confmin confidence({ 花生醬}→{面包})=(3/5)/(4/5)=3/4> confmin 所以,關聯(lián)規(guī)則{面包}→{花生醬}、{ 花生醬}→{面包}均是強關聯(lián)規(guī)則。 12.給定以下數據集(2,4,10,12,15,3,21),進行K-Means聚類,設定聚類數為2個,相似度按照歐式距離計算。(15分) 解:(1)從數據集X中隨機地選擇k個數據樣本作為聚類的出示代表點,每一個代表點表示一個類別,由題可知k=2,則可設m1=2,m2=4: (2)對于X中的任意數據樣本xm(1- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 數據倉庫 數據 挖掘 考試 試題
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://m.italysoccerbets.com/p-6622227.html