分類(lèi)決策樹(shù)_ID3算法
《分類(lèi)決策樹(shù)_ID3算法》由會(huì)員分享,可在線閱讀,更多相關(guān)《分類(lèi)決策樹(shù)_ID3算法(51頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、決策樹(shù),決策樹(shù)基本概念,決策樹(shù)算法,主要內(nèi)容,決策樹(shù)基本概念,決策樹(shù)算法,決策樹(shù)基本概念,關(guān)于分類(lèi)問(wèn)題,分類(lèi)(Classification)任務(wù)就是通過(guò)學(xué)習(xí)獲得一個(gè)目標(biāo)函數(shù)(TargetFunction)f,將每個(gè)屬性集x映射到一個(gè)預(yù)先定義好的類(lèi)標(biāo)號(hào)y。,分類(lèi)任務(wù)的輸入數(shù)據(jù)是紀(jì)錄的集合,每條記錄也稱(chēng)為實(shí)例或者樣例。用元組(X,y)表示,其中,X是屬性集合,y是一個(gè)特殊的屬性,指出樣例的類(lèi)標(biāo)號(hào)(也稱(chēng)為分類(lèi)屬性或者目標(biāo)屬性),決策樹(shù)基本概念,關(guān)于分類(lèi)問(wèn)題,X,y,分類(lèi)與回歸,分類(lèi)目標(biāo)屬性y是離散的,回歸目標(biāo)屬性y是連續(xù)的,決策樹(shù)基本概念,解決分類(lèi)問(wèn)題的一般方法,分類(lèi)技術(shù)是一種根據(jù)輸入數(shù)據(jù)集建立分類(lèi)
2、模型的系統(tǒng)方法。分類(lèi)技術(shù)一般是用一種學(xué)習(xí)算法確定分類(lèi)模型,該模型可以很好地?cái)M合輸入數(shù)據(jù)中類(lèi)標(biāo)號(hào)和屬性集之間的聯(lián)系。學(xué)習(xí)算法得到的模型不僅要很好擬合輸入數(shù)據(jù),還要能夠正確地預(yù)測(cè)未知樣本的類(lèi)標(biāo)號(hào)。因此,訓(xùn)練算法的主要目標(biāo)就是要建立具有很好的泛化能力模型,即建立能夠準(zhǔn)確地預(yù)測(cè)未知樣本類(lèi)標(biāo)號(hào)的模型。分類(lèi)方法的實(shí)例包括:決策樹(shù)分類(lèi)法、基于規(guī)則的分類(lèi)法、神經(jīng)網(wǎng)絡(luò)、支持向量級(jí)、樸素貝葉斯分類(lèi)方法等。,決策樹(shù)基本概念,解決分類(lèi)問(wèn)題的一般方法,通過(guò)以上對(duì)分類(lèi)問(wèn)題一般方法的描述,可以看出分類(lèi)問(wèn)題一般包括兩個(gè)步驟:1、模型構(gòu)建(歸納)通過(guò)對(duì)訓(xùn)練集合的歸納,建立分類(lèi)模型。2、預(yù)測(cè)應(yīng)用(推論)根據(jù)建立的分類(lèi)模型,對(duì)測(cè)試
3、集合進(jìn)行測(cè)試。,決策樹(shù)基本概念,解決分類(lèi)問(wèn)題的一般方法,學(xué)習(xí)算法,學(xué)習(xí)模型,模型,應(yīng)用模型,訓(xùn)練集(類(lèi)標(biāo)號(hào)已知),檢驗(yàn)集(類(lèi)標(biāo)號(hào)未知),歸納,推論,決策樹(shù)基本概念,決策樹(shù),決策樹(shù)是一種典型的分類(lèi)方法,首先對(duì)數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹(shù),然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析。本質(zhì)上決策樹(shù)是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程。,決策樹(shù)基本概念,決策樹(shù)的優(yōu)點(diǎn)1、推理過(guò)程容易理解,決策推理過(guò)程可以表示成IfThen形式;2、推理過(guò)程完全依賴(lài)于屬性變量的取值特點(diǎn);3、可自動(dòng)忽略目標(biāo)變量沒(méi)有貢獻(xiàn)的屬性變量,也為判斷屬性變量的重要性,減少變量的數(shù)目提供參考。,主要內(nèi)容,決策樹(shù)基本概念,決策樹(shù)算法
4、,決策樹(shù)算法,與決策樹(shù)相關(guān)的重要算法,1、Hunt,Marin和Stone于1966年研制的CLS學(xué)習(xí)系統(tǒng),用于學(xué)習(xí)單個(gè)概念。2、1979年,J.R.Quinlan給出ID3算法,并在1983年和1986年對(duì)ID3進(jìn)行了總結(jié)和簡(jiǎn)化,使其成為決策樹(shù)學(xué)習(xí)算法的典型。3、Schlimmer和Fisher于1986年對(duì)ID3進(jìn)行改造,在每個(gè)可能的決策樹(shù)節(jié)點(diǎn)創(chuàng)建緩沖區(qū),使決策樹(shù)可以遞增式生成,得到ID4算法。4、1988年,Utgoff在ID4基礎(chǔ)上提出了ID5學(xué)習(xí)算法,進(jìn)一步提高了效率。1993年,Quinlan進(jìn)一步發(fā)展了ID3算法,改進(jìn)成C4.5算法。5、另一類(lèi)決策樹(shù)算法為CART,與C4.5不同
5、的是,CART的決策樹(shù)由二元邏輯問(wèn)題生成,每個(gè)樹(shù)節(jié)點(diǎn)只有兩個(gè)分枝,分別包括學(xué)習(xí)實(shí)例的正例與反例。,CLS,ID3,C4.5,CART,決策樹(shù)算法,假定公司收集了左表數(shù)據(jù),那么對(duì)于任意給定的客人(測(cè)試樣例),你能幫助公司將這位客人歸類(lèi)嗎?即:你能預(yù)測(cè)這位客人是屬于“買(mǎi)”計(jì)算機(jī)的那一類(lèi),還是屬于“不買(mǎi)”計(jì)算機(jī)的那一類(lèi)?又:你需要多少有關(guān)這位客人的信息才能回答這個(gè)問(wèn)題?,決策樹(shù)的用途,誰(shuí)在買(mǎi)計(jì)算機(jī)?,年齡?,學(xué)生?,信譽(yù)?,青,中,老,否,是,優(yōu),良,決策樹(shù)的用途,決策樹(shù)算法,誰(shuí)在買(mǎi)計(jì)算機(jī)?,年齡?,學(xué)生?,信譽(yù)?,青,中,老,否,是,優(yōu),良,決策樹(shù)的用途,決策樹(shù)算法,決策樹(shù)算法,決策樹(shù)的表示,決策
6、樹(shù)的基本組成部分:決策結(jié)點(diǎn)、分支和葉子。,年齡?,學(xué)生?,信譽(yù)?,青,中,老,否,是,優(yōu),良,決策樹(shù)中最上面的結(jié)點(diǎn)稱(chēng)為根結(jié)點(diǎn)。是整個(gè)決策樹(shù)的開(kāi)始。每個(gè)分支是一個(gè)新的決策結(jié)點(diǎn),或者是樹(shù)的葉子。每個(gè)決策結(jié)點(diǎn)代表一個(gè)問(wèn)題或者決策.通常對(duì)應(yīng)待分類(lèi)對(duì)象的屬性。每個(gè)葉結(jié)點(diǎn)代表一種可能的分類(lèi)結(jié)果,在沿著決策樹(shù)從上到下的遍歷過(guò)程中,在每個(gè)結(jié)點(diǎn)都有一個(gè)測(cè)試。對(duì)每個(gè)結(jié)點(diǎn)上問(wèn)題的不同測(cè)試輸出導(dǎo)致不同的分枝,最后會(huì)達(dá)到一個(gè)葉子結(jié)點(diǎn)。這一過(guò)程就是利用決策樹(shù)進(jìn)行分類(lèi)的過(guò)程,利用若干個(gè)變量來(lái)判斷屬性的類(lèi)別,ID3,決策樹(shù)算法,ID3算法主要針對(duì)屬性選擇問(wèn)題。是決策樹(shù)學(xué)習(xí)方法中最具影響和最為典型的算法。該方法使用信息增益度選
7、擇測(cè)試屬性。當(dāng)獲取信息時(shí),將不確定的內(nèi)容轉(zhuǎn)為確定的內(nèi)容,因此信息伴著不確定性。從直覺(jué)上講,小概率事件比大概率事件包含的信息量大。如果某件事情是“百年一見(jiàn)”則肯定比“習(xí)以為?!钡氖录男畔⒘看?。如何度量信息量的大小?,ID3信息量大小的度量,決策樹(shù)算法,Shannon1948年提出的信息論理論。事件ai的信息量I(ai)可如下度量:,其中p(ai)表示事件ai發(fā)生的概率。假設(shè)有n個(gè)互不相容的事件a1,a2,a3,.,an,它們中有且僅有一個(gè)發(fā)生,則其平均的信息量可如下度量:,ID3信息量大小的度量,決策樹(shù)算法,上式,對(duì)數(shù)底數(shù)可以為任何數(shù),不同的取值對(duì)應(yīng)了熵的不同單位。通常取2,并規(guī)定當(dāng)p(a
8、i)=0時(shí)=0,信息增益用來(lái)衡量給定的屬性區(qū)分訓(xùn)練樣例的能力,中間(間接)表示屬性ID3算法在生成樹(shù)的每一步使用信息增益從候選屬性中選擇屬性用熵度量樣例的均一性,決策樹(shù)算法,信息增益用熵度量樣例的均一性熵刻畫(huà)了任意樣例集合S的純度給定包含關(guān)于某個(gè)目標(biāo)概念的正反樣例的樣例集S,那么S相對(duì)這個(gè)布爾型分類(lèi)(函數(shù))的熵為信息論中對(duì)熵的一種解釋?zhuān)红卮_定了要編碼集合S中任意成員的分類(lèi)所需要的最少二進(jìn)制位數(shù);熵值越大,需要的位數(shù)越多。更一般地,如果目標(biāo)屬性具有c個(gè)不同的值,那么S相對(duì)于c個(gè)狀態(tài)的分類(lèi)的熵定義為,決策樹(shù)算法,用信息增益度量熵的降低程度屬性A的信息增益,使用屬性A分割樣例集合S而導(dǎo)致的熵的降低程
9、度Gain(S,A)是在知道屬性A的值后可以節(jié)省的二進(jìn)制位數(shù)例子,注意是對(duì)當(dāng)前樣例集合計(jì)算上式,理解信息熵,1、信息熵是用來(lái)衡量一個(gè)隨機(jī)變量出現(xiàn)的期望值,一個(gè)變量的信息熵越大,那么它出現(xiàn)的各種情況也就越多,也就是包含的內(nèi)容多,我們要描述它就需要付出更多的表達(dá)才可以,也就是需要更多的信息才能確定這個(gè)變量。2、信息熵是隨機(jī)變量的期望。度量信息的不確定程度。信息的熵越大,信息就越不容易搞清楚(雜亂)。3、一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。信息熵也可以說(shuō)是系統(tǒng)有序化程度的一個(gè)度量。4、信息熵用以表示一個(gè)事物的非確定性,如果該事物的非確定性越高,你的好奇心越重,該事物
10、的信息熵就越高。5、熵是整個(gè)系統(tǒng)的平均消息量。信息熵是信息論中用于度量信息量的一個(gè)概念。一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。6、處理信息就是為了把信息搞清楚,實(shí)質(zhì)上就是要想辦法讓信息熵變小。,理解信息增益,熵:表示隨機(jī)變量的不確定性。條件熵:在一個(gè)條件下,隨機(jī)變量的不確定性。信息增益:熵-條件熵。表示在一個(gè)條件下,信息不確定性減少的程度。例如:假設(shè)X(明天下雨)的信息熵為2(不確定明天是否下雨),Y(如果是陰天則下雨)的條件熵為0.01(因?yàn)槿绻顷幪炀拖掠甑母怕屎艽螅畔⒕蜕倭耍┬畔⒃鲆?2-0.01=1.99。信息增益很大。說(shuō)明在獲得陰天這個(gè)信息后,明天是
11、否下雨的信息不確定性減少了1.99,是很多的,所以信息增益大。也就是說(shuō)陰天這個(gè)信息對(duì)下雨來(lái)說(shuō)是很重要的。,ID3信息量大小的度量,決策樹(shù)算法,Gain(S,A)是屬性A在集合S上的信息增益Gain(S,A)=Entropy(S)-Entropy(S,A)Gain(S,A)越大,說(shuō)明選擇測(cè)試屬性對(duì)分類(lèi)提供的信息越多,決策樹(shù)算法,第1步計(jì)算決策屬性的熵,決策屬性“買(mǎi)計(jì)算機(jī)?”。該屬性分兩類(lèi):買(mǎi)/不買(mǎi)S1(買(mǎi))=641S2(不買(mǎi))=383S=S1+S2=1024P1=641/1024=0.6260P2=383/1024=0.3740I(S1,S2)=I(641,383)=-P1Log2P1-P2Lo
12、g2P2=-(P1Log2P1+P2Log2P2)=0.9537,決策樹(shù)算法,第2步計(jì)算條件屬性的熵,條件屬性共有4個(gè)。分別是年齡、收入、學(xué)生、信譽(yù)。分別計(jì)算不同屬性的信息增益。,決策樹(shù)算法,第2-1步計(jì)算年齡的熵,年齡共分三個(gè)組:青年、中年、老年青年買(mǎi)與不買(mǎi)比例為128/256S1(買(mǎi))=128S2(不買(mǎi))=256S=S1+S2=384P1=128/384P2=256/384I(S1,S2)=I(128,256)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9183,決策樹(shù)算法,第2-2步計(jì)算年齡的熵,年齡共分三個(gè)組:青年、中年、老年中年買(mǎi)與不買(mǎi)比例為
13、256/0S1(買(mǎi))=256S2(不買(mǎi))=0S=S1+S2=256P1=256/256P2=0/256I(S1,S2)=I(256,0)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0,決策樹(shù)算法,第2-3步計(jì)算年齡的熵,年齡共分三個(gè)組:青年、中年、老年老年買(mǎi)與不買(mǎi)比例為257/127S1(買(mǎi))=257S2(不買(mǎi))=127S=S1+S2=384P1=257/384P2=127/384I(S1,S2)=I(257,127)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9157,決策樹(shù)算法,第2-4步計(jì)算年齡的熵,年齡共分
14、三個(gè)組:青年、中年、老年所占比例青年組384/1025=0.375中年組256/1024=0.25老年組384/1024=0.375計(jì)算年齡的平均信息期望E(年齡)=0.375*0.9183+0.25*0+0.375*0.9157=0.6877G(年齡信息增益)=0.9537-0.6877=0.2660(1),決策樹(shù)算法,第3步計(jì)算收入的熵,收入共分三個(gè)組:高、中、低E(收入)=0.9361收入信息增益=0.9537-0.9361=0.0176(2),決策樹(shù)算法,第4步計(jì)算學(xué)生的熵,學(xué)生共分二個(gè)組:學(xué)生、非學(xué)生E(學(xué)生)=0.7811年齡信息增益=0.9537-0.7811=0.1726(3)
15、,決策樹(shù)算法,第5步計(jì)算信譽(yù)的熵,信譽(yù)分二個(gè)組:良好,優(yōu)秀E(信譽(yù))=0.9048信譽(yù)信息增益=0.9537-0.9048=0.0453(4),決策樹(shù)算法,第6步計(jì)算選擇節(jié)點(diǎn),年齡信息增益=0.9537-0.6877=0.2660(1)收入信息增益=0.9537-0.9361=0.0176(2)年齡信息增益=0.9537-0.7811=0.1726(3)信譽(yù)信息增益=0.9537-0.9048=0.0453(4),決策樹(shù)算法,年齡,青年,中年,老年,買(mǎi)/不買(mǎi),買(mǎi),買(mǎi)/不買(mǎi),葉子,決策樹(shù)算法,青年買(mǎi)與不買(mǎi)比例為128/256S1(買(mǎi))=128S2(不買(mǎi))=256S=S1+S2=384P1=128
16、/384P2=256/384I(S1,S2)=I(128,256)=-P1Log2P1-P2Log2P2=-(P1Log2P1+P2Log2P2)=0.9183,決策樹(shù)算法,如果選擇收入作為節(jié)點(diǎn)分高、中、低,平均信息期望(加權(quán)總和):E(收入)=0.3333*0+0.5*0.9183+0.1667*0=0.4592Gain(收入)=I(128,256)-E(收入)=0.91830.4592=0.4591,I(0,128)=0比例:128/384=0.3333I(64,128)=0.9183比例:192/384=0.5I(64,0)=0比例:64/384=0.1667,注意,決策樹(shù)算法,年齡,青
17、年,中年,老年,學(xué)生,買(mǎi),信譽(yù),葉子,否,是,優(yōu),良,買(mǎi),不買(mǎi),買(mǎi)/不買(mǎi),買(mǎi),葉子,葉子,葉子,決策樹(shù)算法,ID3決策樹(shù)建立算法1決定分類(lèi)屬性;2對(duì)目前的數(shù)據(jù)表,建立一個(gè)節(jié)點(diǎn)N3如果數(shù)據(jù)庫(kù)中的數(shù)據(jù)都屬于同一個(gè)類(lèi),N就是樹(shù)葉,在樹(shù)葉上標(biāo)出所屬的類(lèi)4如果數(shù)據(jù)表中沒(méi)有其他屬性可以考慮,則N也是樹(shù)葉,按照少數(shù)服從多數(shù)的原則在樹(shù)葉上標(biāo)出所屬類(lèi)別5否則,根據(jù)平均信息期望值E或GAIN值選出一個(gè)最佳屬性作為節(jié)點(diǎn)N的測(cè)試屬性6節(jié)點(diǎn)屬性選定后,對(duì)于該屬性中的每個(gè)值:從N生成一個(gè)分支,并將數(shù)據(jù)表中與該分支有關(guān)的數(shù)據(jù)收集形成分支節(jié)點(diǎn)的數(shù)據(jù)表,在表中刪除節(jié)點(diǎn)屬性那一欄如果分支數(shù)據(jù)表非空,則運(yùn)用以上算法從該節(jié)點(diǎn)建立子樹(shù)
18、。,決策樹(shù)算法,決策樹(shù)的數(shù)據(jù)準(zhǔn)備,原始表,決策樹(shù)算法,整理后的數(shù)據(jù)表,決策樹(shù)的數(shù)據(jù)準(zhǔn)備,Datacleaning刪除/減少noise,補(bǔ)填missingvaluesDatatransformation數(shù)據(jù)標(biāo)準(zhǔn)化(datanormalization)數(shù)據(jù)歸納(generalizedatatohigher-levelconceptsusingconcepthierarchies)例如:年齡歸納為老、中、青三類(lèi)控制每個(gè)屬性的可能值不超過(guò)七種(最好不超過(guò)五種)Relevanceanalysis對(duì)于與問(wèn)題無(wú)關(guān)的屬性:刪對(duì)于屬性的可能值大于七種又不能歸納的屬性:刪,決策樹(shù)算法,決策樹(shù)的數(shù)據(jù)準(zhǔn)備,決策樹(shù)算法
19、,處理連續(xù)屬性值,決策樹(shù)算法比較適合處理離散數(shù)值的屬性。實(shí)際應(yīng)用中屬性是連續(xù)的或者離散的情況都比較常見(jiàn)。在應(yīng)用連續(xù)屬性值時(shí),在一個(gè)樹(shù)結(jié)點(diǎn)可以將屬性Ai的值劃分為幾個(gè)區(qū)間。然后信息增益的計(jì)算就可以采用和離散值處理一樣的方法。原則上可以將Ai的屬性劃分為任意數(shù)目的空間。C4.5中采用的是二元分割(BinarySplit)。需要找出一個(gè)合適的分割閾值。參考C4.5算法Top10algorithmsindataminingKnowledgeInformationSystem200814:137,決策樹(shù)算法,ID3算法小結(jié),ID3算法是一種經(jīng)典的決策樹(shù)學(xué)習(xí)算法,由Quinlan于1979年提出。ID3算
20、法的基本思想是,以信息熵為度量,用于決策樹(shù)節(jié)點(diǎn)的屬性選擇,每次優(yōu)先選取信息量最多的屬性,亦即能使熵值變?yōu)樽钚〉膶傩裕詷?gòu)造一顆熵值下降最快的決策樹(shù),到葉子節(jié)點(diǎn)處的熵值為0。此時(shí),每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的實(shí)例集中的實(shí)例屬于同一類(lèi)。,決策樹(shù)算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(1),通過(guò)ID3算法來(lái)實(shí)現(xiàn)客戶流失的預(yù)警分析,找出客戶流失的特征,以幫助電信公司有針對(duì)性地改善客戶關(guān)系,避免客戶流失利用決策樹(shù)方法進(jìn)行數(shù)據(jù)挖掘,一般有如下步驟:數(shù)據(jù)預(yù)處理、決策樹(shù)挖掘操作,模式評(píng)估和應(yīng)用。電信運(yùn)營(yíng)商的客戶流失有三方面的含義:一是指客戶從一個(gè)電信運(yùn)營(yíng)商轉(zhuǎn)網(wǎng)到其他電信運(yùn)營(yíng)商,這是流失分析的重點(diǎn)。二是指客戶月平均
21、消費(fèi)量降低,從高價(jià)值客戶成為低價(jià)值客戶。三、指客戶自然流失和被動(dòng)流失。在客戶流失分析中有兩個(gè)核心變量:財(cái)務(wù)原因非財(cái)務(wù)原因、主動(dòng)流失被動(dòng)流失??蛻袅魇Э梢韵鄳?yīng)分為四種類(lèi)型:其中非財(cái)務(wù)原因主動(dòng)流失的客戶往往是高價(jià)值的客戶。他們會(huì)正常支付服務(wù)費(fèi)用,并容易對(duì)市場(chǎng)活動(dòng)有所響應(yīng)。這種客戶是電信企業(yè)真正需要保住的客戶。,決策樹(shù)算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(2),數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘的處理對(duì)象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中(該用戶相關(guān)數(shù)據(jù)存儲(chǔ)在其CRM中),是長(zhǎng)期積累的結(jié)果。但往往不適合直接挖掘,需要做數(shù)據(jù)的預(yù)處理工作,一般包括數(shù)據(jù)的選擇(選擇相關(guān)的數(shù)據(jù))、凈化(消除冗余數(shù)據(jù))、轉(zhuǎn)
22、換、歸約等。數(shù)據(jù)預(yù)處理工作準(zhǔn)備是否充分,對(duì)于挖掘算法的效率乃至正確性都有關(guān)鍵性的影響。該公司經(jīng)過(guò)多年的電腦化管理,已有大量的客戶個(gè)人基本信息(文中簡(jiǎn)稱(chēng)為客戶信息表)。在客戶信息表中,有很多屬性,如姓名用戶號(hào)碼、用戶標(biāo)識(shí)、用戶身份證號(hào)碼(轉(zhuǎn)化為年齡)、在網(wǎng)時(shí)間(竣工時(shí)間)、地址、職業(yè)、用戶類(lèi)別、客戶流失(用戶狀態(tài))等等,數(shù)據(jù)準(zhǔn)備時(shí)必須除掉表中一些不必要的屬性,一般可采用面向?qū)傩缘臍w納等方法去掉不相關(guān)或弱相關(guān)屬性。,決策樹(shù)算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(3),屬性刪除:將有大量不同取值且無(wú)概化操作符的屬性或者可用其它屬性來(lái)代替它的較高層概念的那些屬性刪除。比如客戶信息表中的用戶標(biāo)識(shí)、
23、身份證號(hào)碼等,它們的取值太多且無(wú)法在該取值域內(nèi)找到概化操作符,應(yīng)將其刪除,得到表1。,決策樹(shù)算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(4),屬性概化:用屬性概化閾值控制技術(shù)沿屬性概念分層上卷或下鉆進(jìn)行概化。文化程度分為3類(lèi):W1初中以下(含初中),W2高中(含中專(zhuān)),W3大學(xué)(專(zhuān)科、本科及以上);職業(yè)類(lèi)別:按工作性質(zhì)來(lái)分共分3類(lèi):Z1一Z3;繳費(fèi)方式:托收:T1,營(yíng)業(yè)廳繳費(fèi):T2,充值卡:T3。連續(xù)型屬性概化為區(qū)間值:表中年齡、費(fèi)用變化率和在網(wǎng)時(shí)間為連續(xù)型數(shù)據(jù),由于建立決策樹(shù)時(shí),用離散型數(shù)據(jù)進(jìn)行處理速度最快,因此對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散化處理,根據(jù)專(zhuān)家經(jīng)驗(yàn)和實(shí)際計(jì)算信息增益,在“在網(wǎng)時(shí)長(zhǎng)”屬性
24、中,通過(guò)檢測(cè)每個(gè)劃分,得到在閾值為5年時(shí)信息增益最大,從而確定最好的劃分是在5年處,則這個(gè)屬性的范圍就變?yōu)?:H1,H2。而在“年齡”屬性中,信息增益有兩個(gè)鋒值,分別在40和50處,因而該屬性的范圍變?yōu)?0-50即變?yōu)榍嗄?,中年,老年:N1,N2,N3;費(fèi)用變化率:指(當(dāng)月話費(fèi)近3個(gè)月的平均話費(fèi))/近3個(gè)月的平均話費(fèi))0,F(xiàn)1:30%,F(xiàn)2:30%-99%,F3:100%變?yōu)镕1,F2,F3。,決策樹(shù)算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(5),決策樹(shù)算法,ID3算法實(shí)際應(yīng)用-在電信行業(yè)應(yīng)用實(shí)例(6),在圖中,NO表示客戶不流失,YES表示客戶流失。從圖可以看出,客戶費(fèi)用變化率為100%
25、的客戶肯定已經(jīng)流失;而費(fèi)用變化率低于30%的客戶;即每月資費(fèi)相對(duì)穩(wěn)定的客戶一般不會(huì)流失,費(fèi)用變化率在30%99%的客戶有可能流失,其中年齡在4050歲之間的客戶流失的可能性非常大,而年齡低于40歲的客戶,用充值卡繳費(fèi)的客戶和在網(wǎng)時(shí)間較短的客戶容易流失;年齡較大的客戶,則工人容易流失。,步驟1:生成訓(xùn)練集和測(cè)試集生成訓(xùn)練集iris.train=iris2*(1:75)-1,(意思是返回原數(shù)據(jù)集1、3、5、7、8。、149奇數(shù)行行所有列的數(shù)據(jù))生成測(cè)試集iris.test=iris2*(1:75),(意思是返回原數(shù)據(jù)集2、4、6、8、10、。、150偶數(shù)行所有列的數(shù)據(jù))步驟2:生成決策樹(shù)模型mod
26、el-rpart(SpeciesSepal.Length+Sepal.Width+Petal.Length+Petal.Width,data=iris.train,method=class)繪制決策樹(shù)fancyRpartPlot(model)步驟3:對(duì)測(cè)試集進(jìn)行預(yù)測(cè)iris.rp3=predict(model,iris.test,-5,type=class)注釋?zhuān)篿ris.test,-5的意思是去掉原測(cè)試集第5列后的數(shù)據(jù)步驟4:查看預(yù)測(cè)結(jié)果并對(duì)結(jié)果進(jìn)行分析,計(jì)算出該決策樹(shù)的accuracy(分類(lèi)正確的樣本數(shù)除以總樣本數(shù))table(iris.test,5,iris.rp3)注釋?zhuān)篿ris.te
27、st,5的意思是取出測(cè)試集第5列的數(shù)據(jù)R語(yǔ)言中使用table(data)進(jìn)行頻數(shù)統(tǒng)計(jì)iris.rp3setosaversicolorvirginicasetosa2500versicolor0241virginica0322accuracy=(25+24+22)/75=94.67%步驟5:生成規(guī)則asRules(model),步驟1:生成訓(xùn)練集和測(cè)試集生成訓(xùn)練集iris.train=iris2*(1:75)-1,(意思是返回原數(shù)據(jù)集1、3、5、7、8。、149奇數(shù)行行所有列的數(shù)據(jù))生成測(cè)試集iris.test=iris2*(1:75),(意思是返回原數(shù)據(jù)集2、4、6、8、10、。、150偶數(shù)行
28、所有列的數(shù)據(jù))步驟2:生成決策樹(shù)模型model-rpart(SpeciesSepal.Length+Sepal.Width+Petal.Length+Petal.Width,data=iris.train,method=class)繪制決策樹(shù)fancyRpartPlot(model)步驟3:對(duì)測(cè)試集進(jìn)行預(yù)測(cè)iris.rp3=predict(model,iris.test,-5,type=class)注釋?zhuān)篿ris.test,-5的意思是去掉原測(cè)試集第5列后的數(shù)據(jù)步驟4:查看預(yù)測(cè)結(jié)果并對(duì)結(jié)果進(jìn)行分析,計(jì)算出該決策樹(shù)的accuracy(分類(lèi)正確的樣本數(shù)除以總樣本數(shù))table(iris.test,5,iris.rp3)注釋?zhuān)篿ris.test,5的意思是取出測(cè)試集第5列的數(shù)據(jù)R語(yǔ)言中使用table(data)進(jìn)行頻數(shù)統(tǒng)計(jì)iris.rp3setosaversicolorvirginicasetosa2500versicolor0241virginica0322accuracy=(25+24+22)/75=94.67%步驟5:生成規(guī)則asRules(model),
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 市教育局冬季運(yùn)動(dòng)會(huì)安全工作預(yù)案
- 2024年秋季《思想道德與法治》大作業(yè)及答案3套試卷
- 2024年教師年度考核表個(gè)人工作總結(jié)(可編輯)
- 2024年xx村兩委涉案資金退還保證書(shū)
- 2024年憲法宣傳周活動(dòng)總結(jié)+在機(jī)關(guān)“弘揚(yáng)憲法精神推動(dòng)發(fā)改工作高質(zhì)量發(fā)展”專(zhuān)題宣講報(bào)告會(huì)上的講話
- 2024年XX村合作社年報(bào)總結(jié)
- 2024-2025年秋季第一學(xué)期初中歷史上冊(cè)教研組工作總結(jié)
- 2024年小學(xué)高級(jí)教師年終工作總結(jié)匯報(bào)
- 2024-2025年秋季第一學(xué)期初中物理上冊(cè)教研組工作總結(jié)
- 2024年xx鎮(zhèn)交通年度總結(jié)
- 2024-2025年秋季第一學(xué)期小學(xué)語(yǔ)文教師工作總結(jié)
- 2024年XX村陳規(guī)陋習(xí)整治報(bào)告
- 2025年學(xué)校元旦迎新盛典活動(dòng)策劃方案
- 2024年學(xué)校周邊安全隱患自查報(bào)告
- 2024年XX鎮(zhèn)農(nóng)村規(guī)劃管控述職報(bào)告