方差分析與協(xié)方差分析.ppt
方差分析和協(xié)方差分析,第5組,在針對連續(xù)變量的統(tǒng)計推斷方法中,最常用的有t檢驗和方差分析兩種四種不同的顏色包裝對飲料銷售量的影響(四個水平,分類變量)兩兩t檢驗?,不能做t檢驗,如果有K(K3)個平均數(shù),若用兩兩比較的方法來檢驗,則需作K(K-1)/2次檢驗,不但程序繁瑣,而且相當于從t分布中隨機抽取多個t值,其落在大于臨界值的范圍內(nèi)的概率大大增加,犯類錯誤的概率大大增加:如6次檢驗H0的概率是0.95時的誤差為:1-0.956=0.265。,方差分析概念,第一類因素:可以控制的控制因素第二類因素:不能控制的隨機因素受前兩類因素影響的事物為觀察變量方差分析目的:分析控制變量的不同水平是否對觀察變量產(chǎn)生了顯著影響,檢驗各個水平下觀察變量的均值是否相等,方差分析分類之一,單變量方差分析:一個觀察變量單因方差分析中的控制變量只有一個多因素方差分析中的控制變量有多個多變量方差分析:多個觀察變量,方差分析分類之二,一般方差分析:因變量是定量變量,自變量是定類數(shù)據(jù)協(xié)方差分析:將很難控制的因素作為協(xié)變量,在排除協(xié)變量影響的條件下,分析控制變量對觀察變量的影響,從而更加準確地對控制變量進行評價。協(xié)變量一定要是連續(xù)數(shù)值型。非定量方差分析:因變量為定序變量,統(tǒng)計技術分類圖,方差分析原理,目的:通過方差的比較來檢驗各個水平下的觀察值的均值是否相等觀察值差異:觀察值存在差異,差異的產(chǎn)生來自兩個方面。系統(tǒng)性差異:由控制變量的不同水平造成的,例如飲料的不同顏色帶來不同的銷售量隨機性差異:由于抽選樣本的隨機性而產(chǎn)生的差異,例如,相同顏色的飲料在不同的商場銷售量也不相同。,方差分析的基本思想(單因素),9,組間變異,總變異,組內(nèi)變異,組內(nèi)只包含隨機誤差組間既包括隨機誤差,也包括系統(tǒng)誤差,組間變異組內(nèi)變異,A,B,組間變異組內(nèi)變異,A,B,單因素方差分析邏輯與步驟(One-WayANOVA),前提假設模型與假設平方和的分解與F檢驗多重比較(事后檢驗)關聯(lián)強度與效應值,方差分析的前提條件,(1)每個水平下的因變量應當服從正態(tài)分布。方差分析對分布假設有穩(wěn)健性(robust),即正態(tài)性不滿足時,統(tǒng)計結(jié)果變化不大,因此一般并不要求檢驗總體的正態(tài)性。(2)變異可加性。各因素對離差平方和的影響可以分割成幾個可以加在一起的部分。(多因素)(3)獨立性。觀察對象是來自所研究因素的各個水平之下的獨立隨機抽樣,(4)方差齊性(homogeneityofvariance),也稱變異的同質(zhì)性,各個水平下的總體具有相同的方差。這是方差分析一個很重要的前提,因此在進行方差分析之前,應當進行方差齊性檢驗。Bartlett檢驗法LeveneF檢驗最大方差與最小方差之比<3,初步認為方差齊同。,方差不齊,若方差齊性的假定不滿足,可考慮如下策略:a.檢查某些表現(xiàn)“特殊”的觀測值,看能否將其剔除,用剩下的數(shù)據(jù)進行方差分析。b.使用無方差齊性假設的多重比較方法。c.數(shù)據(jù)變換,用變換(平方根變換、對數(shù)變換等)后的數(shù)據(jù)進行方差分析。正態(tài)性轉(zhuǎn)換。d.非參數(shù)檢驗,模型與假設,模型表達式(單因素)Y=+a+e建立假設,確定檢驗水準,k組總體均數(shù)不全相等。,方差分析表組間變異體現(xiàn)了因素A的效應,組內(nèi)變異則被視作誤差。,確定P值,做出統(tǒng)計推斷,如果均值相等,F(xiàn)=MSA/MSE1,事后比較(posteriori/posthoccomparison),F檢驗顯著說明各組均值并不相同(至少兩組不同),但不能回答到底哪幾組不同。通過對各組均值之間的配對比較來進一步檢驗到底哪些均值之間存在差異。方法眾多,不下20種。,LSD法:最靈敏,會犯假陽性錯誤;Sidak法:比LSD法保守;Bonferroni法:比Sidak法更為保守一些;常用Scheffe法:多用于進行比較的兩組間樣本含量不等時;Dunnet法:常用于多個試驗組與一個對照組的比較;S-N-K法:尋找同質(zhì)亞組的方法;Turkey法:最遲鈍,要求各組樣本含量相同;Duncan法:與Sidak法類似。,均數(shù)兩兩比較方法,關聯(lián)強度(strengthofassociation)與效應值(effectsize)的度量,實驗處理引致的效應的大小或者數(shù)據(jù)的變異有多少部分是由實驗處理造成的。Eta平方凈(偏)Eta平方Omega平方Cohensf(具體內(nèi)容見附錄),雙因素(無交互作用)試驗的方差分析表,注意,各因素離差平方和的自由度為水平數(shù)減一,總平方和的自由度為試驗總次數(shù)減一。,雙因素(有重復)試驗方差分析表,這里,方差分析的應用范圍:,(一)單因素多個樣本均數(shù)的比較:1.完全隨機設計:只安排一種處理因素,不安排任何配伍因素。2.隨機化區(qū)組設計:只安排一種處理因素,安排一種配伍因素。3.拉丁方設計:只安排一種處理因素,安排兩種配伍因素。,(二)多因素樣本均數(shù)間的比較:1.析因設計:安排兩種或兩種以上處理因素,分析處理因素間的交互作用2.裂區(qū)設計:安排兩種或兩種以上處理因素,分析處理因素間的交互作用3.交叉設計:安排兩種或兩種以上處理因素,分析處理因素間的交互作用(三)多個樣本均數(shù)向量間的比較多元方差分析:結(jié)果變量有兩個以上,需要綜合評價。(四)回歸方程的假設檢驗,協(xié)方差分析,概念:將方差分析和回歸分析結(jié)合起來的一種統(tǒng)計分析方法,27,當試驗指標(Y)的變異既受一個或幾個分類變量,也受一個或幾個連續(xù)變量的影響,可采用協(xié)方差分析,方差分析:一個或幾個因子(分類變量)對變量Y(連續(xù)變量)的影響回歸分析:一個或幾個變量(連續(xù)變量)對變量Y(連續(xù)變量)的影響,目的消除連續(xù)變量對Y的影響,使方差分析的檢驗功效更高,結(jié)果更可靠連續(xù)變量可能會增大Y的組間差異,導致錯誤結(jié)論連續(xù)變量可能會增大Y的組內(nèi)變異,降低檢驗功效消除分類變量的影響,使回歸分析的結(jié)果更可靠,28,20名男性籃球運動員和20名大學生的肺活量(cm3)比較,協(xié)方差分析基本思想,協(xié)方差分析基本思想,20名男性籃球運動員和20名大學生的肺活量(cm3)比較,協(xié)變量,協(xié)方差分析基本思想,比較肺活量時,要消除身高的影響。方法1:抽樣時,選身高相近的。方法2:從統(tǒng)計分析技巧上平衡數(shù)據(jù)。校正了身高的影響后(回歸分析),再比較兩組肺活量的均數(shù)有無差異(方差分析)。,協(xié)方差分析基本思想,在方差分析中,用來校正因變量的數(shù)值型變量稱為協(xié)變量(covariable)。含有協(xié)變量的方差分析稱為協(xié)方差分析。協(xié)方差分析可提高方差分析的準確度。觀察指標(Y)的總變異:SS總SS協(xié)變量SS處理SS誤差,協(xié)方差分析的基本思想,其實質(zhì)就是從Y的總離均差平方和中扣除協(xié)變量X對Y的回歸平方和,對剩余(殘差)平方和作進一步分解后再進行方差分析,以更好的評價處理的效應。,33,SS總SS回SS殘,SS總SS協(xié)變量SS處理SS誤差,SS修正SS組內(nèi)殘差,大學生籃球運動員,圖1協(xié)方差分析示意圖,調(diào)整均數(shù),協(xié)方差分析步驟,完全隨機設計的協(xié)方差分析應用條件檢驗回歸分析求調(diào)整均數(shù)對調(diào)整均數(shù)作方差分析,協(xié)方差分析的假設,協(xié)方差分析的基本假設與方差分析相同,包括變量的正態(tài)性、觀測值獨立、方差齊性等,此外還有三個重要的假設:因變量與協(xié)方差之間線性關系;所測量的協(xié)變量不應有誤差,如果選用的是多項的量表,應有高的內(nèi)部一致性信度或重測信度,系數(shù)最好大于0.80。這一假設若被違反會造成犯一類錯誤的概率上升,降低統(tǒng)計檢驗力?!敖M內(nèi)回歸系數(shù)同質(zhì)性”(homogeneityofwithinrgression),各實驗處理組中一舉協(xié)變量(X)預測因變量(Y)的回歸線的回歸系數(shù)要相等,即斜率相等,各條回歸線平行。如果斜率不等則不宜直接進行協(xié)方差分析。,協(xié)方差分析的模型和假定,37,回歸分析:,協(xié)方差分析:,模型,方差分析:,Thanks!,問題:為什么一個比較均數(shù)差異的方法竟稱為方差分析?,這種命名是因為在檢驗均數(shù)間差異是否具有統(tǒng)計學意義的過程中,我們實際上是通過比較方差而得到的。與t檢驗直接比較兩組的平均數(shù)的做法不同,方差分析把“平均數(shù)之間差異是否顯著”的問題轉(zhuǎn)化為“平均數(shù)組間變異是否顯著”的問題,通過“組間變異”與“組內(nèi)變異”的對比,進行F檢驗,從整體上同時比較多組的平均數(shù)之間是否存在顯著差異。,LSD(費舍最小顯著差異法,Fishersleastsignificantdifference)該方法是對檢驗兩總體均值是否相等的t檢驗方法的總體方差估計加以修正(用MSE代替)而得到的。,特點檢驗敏感性高,即水平間的均值只要存在一定程度的微小差異就可能被檢驗出來。但該方法沒有控制范第一類錯誤的概率。,S-N-K(Student-Newman-Keuls,q檢驗)首先把各組均值排序,用每一比較的兩個均值在排序序列種相差的等級數(shù)來確定不同的q臨界值。,兩均值的rank之差,是一種有效劃分相似性子集的方法,該方法適用于各水平下觀測值個數(shù)相等的情況。,Tukey法(honestysignificantdifferent,HSD)與SNK法類似,不同之處在于不論各組均值的大小次序,均使用同一臨界值。,組數(shù),它采用q統(tǒng)計量,適用于各水平下觀測值個數(shù)相等的情況。與LSD方法比較,較好的控制了范第一類錯誤的概率。,Bonferroni校正(以t分布作為檢驗分布,對檢驗水準進行調(diào)整)與LSD方法基本相同。不同的是它控制了范第一類錯誤的概率。在每次兩兩組的檢驗中,它將顯著水平除以兩兩檢驗的總次數(shù)。在比較的次數(shù)較多時,該方法就不太適合。,Dunnett方法,是一種唯一用于多個處理組和一個對照組比較的方法。,SPSS提供的常用多重比較檢驗方法,1、TambanesT2:基于t檢驗的保守的多重比較方法。,不滿足方差齊性多重檢驗方法,2、DunnettsT3:基于學生化極大模的多重比較方法。,3、Games-Howell:非參數(shù)多重比較方法。,4、DunnettsC:基于學生化極差的多重比較方法,是一種可信區(qū)間的方法。,Eta平方(Eta-Squared,2),又稱關聯(lián)強度(correlationratio),因變量的變異被自變量解釋的百分比。凈Eta平方(partialEta-Squared,p2),多因素ANOVA中,扣除了其他自變量后某自變量的效應。判斷標準:0.01,小;0.06,中;0.14,大,Omega平方(Omegasquared,2)當F顯著時,2將會是正值,若為負,則要解釋為0。當樣本很大而使MSw變得很小,F(xiàn)很容易達到顯著,此時若2很小,即使在統(tǒng)計上有意義,實際應用上仍然沒意義。判斷標準:0.01,小;0.06,中;0.14,大,Cohensfff0.25,中;f0.40,高,修正均數(shù)的計算:,修正均數(shù)間的多重比較:,S2y.x為組內(nèi)剩余方差,SS總SS回SS總殘,52,常用試驗設計,1.完全隨機設計(Completelyrandomdesign)單因素設計.優(yōu)點:簡單易行,缺點:只能分析一個因素2.配伍設計(Randomizedblockdesign)隨機區(qū)組或雙因素無重復試驗設計.交互作用和方差齊性無法考察(1)同一受試對象在同一處理不同水平間的比較復(2)將幾個受試對象按一定條件劃分成配伍組,再將每一配伍組的各受試者隨機分配到各處理組中,每個配伍組的例數(shù)等于處理組個數(shù).,3.交叉設計(Cross-overdesign)一種特殊的自身對照設計.克服了試驗前后自身對照由于觀察期間各種非試驗因素對試驗結(jié)果的影響造成的偏移.優(yōu)點:節(jié)約樣本含量,能控制時間因素及個體差異對處理方式的影響,均等考慮受試者利益缺點:不允許缺失數(shù)據(jù),不適用于短程效果對比4.析因設計(Factorialdesign)當一種因素的質(zhì)和量改變時另一種現(xiàn)象的質(zhì)和量也隨之而改變,幾個因素間存在交互作用時使用.優(yōu)點:節(jié)約樣本含量,5.拉丁方設計(Latinsquaredesign)各因素間無交互作用且水平數(shù)相等,三個因素按水平數(shù)r排列成一個r*r隨機方陣.縱橫兩向結(jié)尾皆為配伍組,可用較少的重復次數(shù),獲得較多的信息6.正交設計(Orthogonaldesign)三個及以上因素,存在交互作用.用正交表將各試驗因素,各水平之間的組合進行均勻搭配,從而可以用較少的,有代表性的處理組合,提供充分有用的信息.優(yōu)點:高效,快速缺點:基于線性模型的設計,7.星點設計(Centralcompositedesign)在正交或析因設計的基礎上將自變量與因變量的關系擴大到曲面效應面的設計,如二水平析因設計加上極值點和中心點構(gòu)成,采用二次以上多元非線性擬合.8.嵌套設計(Nesteddesign)各個試驗因素的影響有主次之分,次要因素的各水平是嵌套在主要因素水平之下的,不能交互.9.裂區(qū)設計(Split-plotdesign)試驗因素并非一次安排,而分二次甚至多次安排.先安排影響最重要的,而后再加入影響較小,或精確度要求高的次要因素到主要因素的不同水平中.,