《[教育學心理學]ch20多元回歸分析》由會員分享,可在線閱讀,更多相關(guān)《[教育學心理學]ch20多元回歸分析(70頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、心理統(tǒng)計黃華Ch20:多元回歸分析date200909Ch20多元回歸分析多元回歸分析n回歸模型簡介回歸模型簡介n多元線性回歸分析的一般步驟多元線性回歸分析的一般步驟n自變量的選擇自變量的選擇n多元回歸方程的應用多元回歸方程的應用n多元回歸分析的多元回歸分析的SPSSSPSS操作操作Multivariate linear regression多元線性回歸分析也稱復線性回歸分析(multiple linear regression analysis),它研究一組自變量如何直接影響一個因變量。自變量(independent variable)是指獨立自由變量的變量,用X表示;因變量(depende
2、nt variable)是指非獨立的、受其它變量影響的變量,用Y表示;由于模型僅涉及一個因變量,所以多元線性回歸分析也稱單變量線性回歸分析(univariate linear regression analysis)多元回歸分析數(shù)據(jù)格式多元回歸分析數(shù)據(jù)格式 假定因變量假定因變量Y Y與自變量與自變量 間存在如下關(guān)系:間存在如下關(guān)系:mmXXXY22110 式中,式中, 是常數(shù)項,是常數(shù)項, 稱為稱為偏回歸系數(shù)(偏回歸系數(shù)(partial regression partial regression coefficientcoefficient)。 的含義為在其它自變量保持不變的條件下,的含義為在
3、其它自變量保持不變的條件下,自變量自變量 改變一個單位時因變量改變一個單位時因變量Y Y 的平均改變量。的平均改變量。 為隨機誤差,為隨機誤差,又稱殘差(又稱殘差(residualresidual),它表示),它表示 因變量的變化中不能由自變量因變量的變化中不能由自變量 解釋的部分。解釋的部分。0m,21m,ii21m,iXi21mX,X,X21iX多元線性回歸方程模型多元線性回歸方程模型應用條件應用條件多元線性回歸模型應滿足以下條件: (1)Y與 之間具有線性關(guān)系; (2)各觀測值 之間相互獨立; (3)殘差服從均數(shù)為0、方差為的正態(tài)分布,它等價于對于任意一組自變量 ,因變量均服從正態(tài)分布且
4、方差齊。注意:注意:雖然模型要求因變量是連續(xù)數(shù)值變量,但對自變量的類型不限。雖然模型要求因變量是連續(xù)數(shù)值變量,但對自變量的類型不限。若自變量是分類變量,特別是無序分類變量,要轉(zhuǎn)化為亞變量才能分若自變量是分類變量,特別是無序分類變量,要轉(zhuǎn)化為亞變量才能分析。對于自變量是分類變量的情形,需要用析。對于自變量是分類變量的情形,需要用廣義線性回歸模型分析。廣義線性回歸模型分析。mX,X,X21mX,X,X21n ,jYj21Ch20多元回歸分析多元回歸分析n回歸模型簡介回歸模型簡介n多元線性回歸分析的一般步驟多元線性回歸分析的一般步驟n自變量的選擇自變量的選擇n多元回歸方程的應用多元回歸方程的應用n多
5、元回歸分析的多元回歸分析的SPSSSPSS操作操作多元線性回歸分析的步驟多元線性回歸分析的步驟(一)估計各項參數(shù),建立多元線性回歸方程模型(二)對整個模型進行假設(shè)檢驗,模型有意義的前提下,再分別對各偏回歸系數(shù)進行假設(shè)檢驗。(三)計算相應指標,對模型的擬合效果進行評價。模型的參數(shù)估計(略)模型的參數(shù)估計(略)mmXb.XbXbYb-22110 2727名被試白鼠完成名被試白鼠完成T T型迷型迷宮所需的時間(宮所需的時間(y y)和它)和它們的智商分數(shù)(們的智商分數(shù)(x x1 1)、成)、成長環(huán)境分數(shù)(長環(huán)境分數(shù)(x x2 2)、饑餓)、饑餓水平(血糖指標,水平(血糖指標,x x3 3)、)、迷宮
6、經(jīng)驗(迷宮經(jīng)驗(x x4 4)的測量值)的測量值列于表中,試建立完成時列于表中,試建立完成時間與其它幾項指標關(guān)系的間與其它幾項指標關(guān)系的多元線性回歸方程。多元線性回歸方程。數(shù)據(jù)如圖數(shù)據(jù)如圖 案例案例線性回歸方程模型線性回歸方程模型線性回歸方程模型為:線性回歸方程模型為:對模型及偏回歸系數(shù)的假設(shè)檢驗對模型及偏回歸系數(shù)的假設(shè)檢驗1、對模型的假設(shè)檢驗F檢驗2、對偏回歸系數(shù)的假設(shè)檢驗F檢驗和t 檢驗3、標準偏化回歸系數(shù)1、對模型的假設(shè)檢驗、對模型的假設(shè)檢驗F檢驗檢驗檢驗統(tǒng)計量為FSS回歸為回歸項的平方和,反映由于方程中個自變量與因變量的線性關(guān)系而使因變量變異減小的部分;SS剩余表示剩余(殘差)平方和,
7、說明除自變量外,其它隨機因素對y變異的影響。)mn/(SSm/SSF1-剩余回歸回歸總剩余SSSSSS-1、對模型的假設(shè)檢驗、對模型的假設(shè)檢驗F檢驗檢驗SS總=lyy=222.5519;總=n-1=26SS剩余= SS總- SS回歸=222.5519-133.7107=88.8412剩余=n-m-1=22 MS回歸= SS回歸/回歸; MS剩余= SS剩余/剩余;F= MS回歸/ MS剩余1 1、對模型的假設(shè)檢驗、對模型的假設(shè)檢驗F F檢驗檢驗回歸方程成立只能認為總的來說自變量與因變量間存在線性關(guān)系,但是否每一個自變量都與因變量間存在線性關(guān)系,須對其偏回歸系數(shù)進行假設(shè)檢驗。 方差分析法 t 檢
8、驗法2、對偏回歸系數(shù)的假設(shè)檢驗、對偏回歸系數(shù)的假設(shè)檢驗F檢驗和檢驗和t 檢驗檢驗偏回歸系數(shù)的假設(shè)檢驗偏回歸系數(shù)的假設(shè)檢驗-方差分析法方差分析法計算Xi的偏回歸平方和Ui,它表示模型中含有其它m-1個自變量的條件下該自變量對Y的回歸貢獻,相當于從回歸方程中剔除Xi后所引起的回歸平方和的減少量。偏回歸平方和Ui越大說明自變量越重要。檢驗統(tǒng)計量為: 11-mnSSUFi剩余 偏回歸系數(shù)的假設(shè)檢驗偏回歸系數(shù)的假設(shè)檢驗-方差分析法方差分析法偏回歸系數(shù)的假設(shè)檢驗偏回歸系數(shù)的假設(shè)檢驗 t 檢驗檢驗3、標準偏回歸系數(shù)、標準偏回歸系數(shù)多元線性回歸方程中,各自變量的單位不同,其偏回歸系數(shù)之間是無法直接比較的。需要
9、對偏回歸系數(shù)標準化,以消除量綱的影響。標準化的偏回歸系數(shù)稱為標準偏回歸系數(shù)(standard partial regression coefficient)。標準偏回歸系數(shù) 與偏回歸系數(shù)之間的關(guān)系為 標準偏回歸系數(shù)絕對值的大小,可用以衡量自變量對因變量貢獻的大小,即說明各自變量在多元回歸方程中的重要性。ibYjjYYjjjYYjjjjSSbnlnlbllbb-) 1/() 1/( 3、標準化偏回歸系數(shù)、標準化偏回歸系數(shù)(三)計算相應指標,對模型的擬合效果進行評價(三)計算相應指標,對模型的擬合效果進行評價評價回歸方程回歸效果的優(yōu)劣是回歸分析的重要內(nèi)容之一。常用評價指標有: 復相關(guān)系數(shù)、 決定系
10、數(shù)、 校正決定系數(shù)、 剩余標準差等。 1.復相關(guān)系數(shù)復相關(guān)系數(shù)復相關(guān)系數(shù)(R),衡量因變量Y與回歸方程內(nèi)所有自變量線性組合件相關(guān)關(guān)系的密切程度。 0=R=1,沒有負值。R的值越接近1,說明相關(guān)關(guān)系越密切;越接近0說明相關(guān)關(guān)系越弱。2、決定系數(shù)、決定系數(shù)決定系數(shù)(coefficient of determination)表示回歸平方和占總平方和的比例,反映各自變量對因變量回歸貢獻的大小,用R2表示。R2無單位,取值在01之間。值越大,說明回歸平方和在總平方和中所占的比重越大,剩余平方和所占比例越小,回歸效果越好。 總回歸SSSSR 23、剩余標準差、剩余標準差剩余標準差(standard dev
11、iation of residual)為扣除m個自變量的影響后,因變量仍然存在的變異,即不能由m個自變量的變化解釋的Y的變異,用 表示。公式為: 剩余標準差越小,說明回歸效果越好。剩余標準差除與剩余平方和有關(guān)外,還與自由度有關(guān),因此剩余標準差與決定系數(shù)對回歸效果優(yōu)劣的評價結(jié)果有時不一致。研究者通常希望用盡可能少的自變量來最大限度地解釋因變量的變異,從這個意義上來說,用剩余標準差作為評價回歸效果的指標比決定系數(shù)更好。mYs1231123-mnSSMSsmY剩余剩余4、校正決定系數(shù)、校正決定系數(shù)當方程中包含很多自變量時,即使其中一些自變量在解釋因變量的變異時貢獻很小,但隨著回歸方程中自變量的增加。
12、決定系數(shù)仍然會表現(xiàn)為只增不減,故計算校正決定系數(shù)(adjusted coefficient of determination)以消除自變量個數(shù)的影響。公式為:校正決定系數(shù) 越大,說明回歸效果越好。當方程中加入有顯著作用的自變量時, 增大,剩余標準差減?。环粗?,若方程中引入無顯著作用的自變量時, 可能減小,而剩余標準差增大。2adjR221-R111n-m-1adjnMSRMS-剩余總2adjR2adjR2adjR2adjR4、校正決定系數(shù)、校正決定系數(shù)Ch20多元回歸分析多元回歸分析n回歸模型簡介回歸模型簡介n多元線性回歸分析的一般步驟多元線性回歸分析的一般步驟n自變量的選擇自變量的選擇n多元
13、回歸方程的應用多元回歸方程的應用n多元回歸分析的多元回歸分析的SPSSSPSS操作操作奧克姆剃刀奧克姆剃刀上好的模型選擇可遵循一個稱為奧克姆剃刀(Occams Razor)的基本原理:最好的科學模型往往最簡單,且能解釋所觀察到的事實。William Navidi逐步回歸分析逐步回歸分析“最優(yōu)回歸方程”是指: 對因變量有顯著作用的自變量,全部選入回歸方程; 對因變量無顯著作用的自變量,一個也不引入回歸方程。選擇”最優(yōu)回歸方程”的方法有: 1最優(yōu)子集回歸法 2向后剔除法(backward selection) 3向前引入法(forward selection) 4逐步回歸法(stepwise se
14、lection): 逐步選擇法逐步選擇法 1.1.前進法(前進法(forward selectionforward selection)2.2.后退法(后退法(backward eliminationbackward elimination)3.3.逐步回歸法(逐步回歸法(stepwise regressionstepwise regression)。)。它們的共同特點是它們的共同特點是每一步只引入或剔除一個自變量。決定其取舍則基于對每一步只引入或剔除一個自變量。決定其取舍則基于對偏回歸平方和的偏回歸平方和的F F檢驗檢驗1; 1;) 1(21)(-pnpnSSSSSSFjj殘回回在供選擇的m
15、個自變量中,依各自變量對因變量作用的大小,即偏回歸平方和(partial regression sum of squares)的大小,由大到小把自變量依次逐個引入。每引入一個變量,就對它進行假設(shè)檢驗。當時,將該自變量引入回歸方程。新變量引入回歸方程后,對方程中原有的自變量也要進行假設(shè)檢驗,并把貢獻最小且退化為不顯著的自變量逐個剔出方程。因此逐步回歸每一步(引入一個自變量或剔除一個自變量)前后都要進行假設(shè)檢驗,直至既沒有自變量能夠進入方程,也沒有自變量從方程中剔除為止?;貧w結(jié)束,最后所得方程即為所求得的“最優(yōu)”回歸方程。逐步回歸逐步回歸逐步回歸逐步回歸逐步回歸逐步回歸1.模型選擇可遵循奧克姆剃刀
16、的基本原理最好的科學模型往往最簡單,且能解釋所觀察到的實事2.對于線性模型來說,奧克姆剃刀可表示成簡約原則一個模型應包括擬合數(shù)據(jù)所必需的最少變量3.如果一個模型只包含數(shù)據(jù)擬合所必需的變量,這個模型就稱為簡約模型(parsimonious model)實際中的許多多元回歸模型都是對簡約模型的擴展奧克姆剃刀奧克姆剃刀Ch20多元回歸分析多元回歸分析n回歸模型簡介回歸模型簡介n多元線性回歸分析的一般步驟多元線性回歸分析的一般步驟n自變量的選擇自變量的選擇n多元回歸方程的應用多元回歸方程的應用n多元回歸分析的多元回歸分析的SPSSSPSS操作操作多元回歸的應用多元回歸的應用1影響因素分析 2估計與預測
17、 用回歸方程進行預測時,應選擇具有較高值的方程。3統(tǒng)計控制 指利用回歸方程進行逆估計,即通過控制自變量的值使得因變量為給定的一個確切值或者一個波動范圍。此時,要求回歸方程的值要大,回歸系數(shù)的標準誤要小。多元線性回歸應用時的注意事項多元線性回歸應用時的注意事項 1樣本含量 2方程“最優(yōu)”問題 3關(guān)于逐步回歸 4多元共線性 5.異常值識別與強影響分析 多元線性回歸應用時的注意事項多元線性回歸應用時的注意事項1樣本含量 應注意樣本含量與自變量個數(shù)的比例。通常,樣本含量至少為變量數(shù)的5-10倍。2方程“最優(yōu)”問題 目的是精選自變量以求得擬合效果最好的多元回歸方程。最優(yōu)子集回歸是選擇一組使回歸方程擬和最
18、好的自變量,而逐步回歸則選擇對因變量作用有意義的自變量,要根據(jù)研究目的選用合適的方法。多元線性回歸應用時的注意事項多元線性回歸應用時的注意事項3關(guān)于逐步回歸 進行逐步回歸分析時,隨剔選變量界值的不同,選得的回歸方程不一定相同。方程中引入什么樣的變量,應該由研究者結(jié)合專業(yè)知識以及經(jīng)驗來確定,不加分析的使用逐步回歸難以取得好的效果。另外,逐步回歸在對大量因素進行分析時,可先進行聚類分析,然后進行逐步回歸分析等。多元線性回歸應用時的注意事項多元線性回歸應用時的注意事項4多元共線性 多元共線性是指在進行多元回歸分析時,自變量間存在較強的線性相關(guān)關(guān)系。共線關(guān)系的存在,可使得估計系數(shù)方差加大,系數(shù)估計不穩(wěn)
19、,結(jié)果分析困難。因此在多元回歸分析時,特別是當回歸結(jié)果難以用專業(yè)知識解釋時,要進行共線性診斷,找出存在共線性且不重要的那些自變量,剔出方程,另行回歸分析。 對于存在共線性的資料,可以利用共線性診斷有選擇的保留自變量以消除共線性;或者采用嶺回歸、主成分回歸等回歸分析方法以避免共線性指標對結(jié)果的影響。多元線性回歸應用時的注意事項多元線性回歸應用時的注意事項多元共線性的表現(xiàn)在實際應用中主要表現(xiàn)為: (1)模型擬合效果很好,但偏回歸系數(shù)幾乎都無統(tǒng)計學意義; (2)偏回歸系數(shù)估計值的方差很大; (3)偏回歸系數(shù)估計值不穩(wěn)定,隨著樣本含量的增減各偏回歸系數(shù)發(fā)生較大變化或當一個自變量被引入或剔除時其余變量偏
20、回歸系數(shù)有很大變化; (4)偏回歸系數(shù)估計值的大小與符號可能與事先期望的不一致或與經(jīng)驗相悖,結(jié)果難以解釋出現(xiàn)以上表現(xiàn),提示存在多元共線性問題,應進行多元共線性診斷。常用的共線性診斷指標常用的共線性診斷指標(1)方差膨脹因子(VIF)常用的共線性診斷指標常用的共線性診斷指標(2)特征根系統(tǒng)(system of eigenvalues) 共線性診斷指標共線性診斷指標異常值識別與強影響分析異常值識別與強影響分析 異常觀測值得存在加大了數(shù)據(jù)的離散度,在線性回歸分析中產(chǎn)生較大的殘差,影響回歸函數(shù)的擬合度,所以應進行異常值識別和強影響分析?;镜姆椒ㄓ袑W生化殘差和Cooks距離。(1)學生化殘差(stud
21、entized residual) Cooks距離距離 學生化殘差和學生化殘差和Cooks距離距離 案例:學生化殘差和案例:學生化殘差和Cooks距離距離 Ch20多元回歸分析多元回歸分析n回歸模型簡介回歸模型簡介n多元線性回歸分析的一般步驟多元線性回歸分析的一般步驟n自變量的選擇自變量的選擇n多元回歸方程的應用多元回歸方程的應用n多元回歸分析的多元回歸分析的SPSSSPSS操作操作SPSS數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)第一步:選變量第一步:選變量散點圖矩陣graph-scatter/dot散點圖矩陣散點圖矩陣相關(guān)系數(shù)矩陣相關(guān)系數(shù)矩陣Analyze-correlation-bevariate相關(guān)系數(shù)矩陣相關(guān)
22、系數(shù)矩陣第二步:選數(shù)據(jù)第二步:選數(shù)據(jù)Analyze-regression-linear“save”是否滿足方差齊性的要求是否滿足方差齊性的要求以回歸預測值為X軸,以標準化殘差為Y軸是否滿足正態(tài)性的要求是否滿足正態(tài)性的要求P-P圖analyze-descriptive-P-Pplot是否滿足正態(tài)性的要求是否滿足正態(tài)性的要求殘差直方圖graph-histogram奇異值和影響點的問題奇異值和影響點的問題Analyze-regression-linear-save第三步:進行回歸第三步:進行回歸逐步回歸Analyze-regression-linear-stepwise結(jié)果理解結(jié)果理解結(jié)果理解結(jié)果理解結(jié)果理解結(jié)果理解結(jié)果理解結(jié)果理解