《有限數(shù)據(jù)統(tǒng)計(jì)處理》由會(huì)員分享,可在線閱讀,更多相關(guān)《有限數(shù)據(jù)統(tǒng)計(jì)處理(44頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),浙江科技學(xué)院本科課程化工數(shù)據(jù)處理,*,*,第三章 有限數(shù)據(jù)的統(tǒng)計(jì)處理,3.1 總體的參數(shù)估計(jì),期望值和方差、參數(shù)估計(jì),3.2 一般的統(tǒng)計(jì)檢驗(yàn),平均值檢驗(yàn)、F檢驗(yàn)、離群值檢驗(yàn),10/22/2024,1,總體、個(gè)體和樣本:,總體(Population),:調(diào)查研究的事物或現(xiàn)象的全體,個(gè)體(Item unit):,組成總體的每個(gè)元素,樣本(Sample):,從總體中所抽取的部分個(gè)體,樣本容量(Sample size):,樣本中所含個(gè)體的數(shù)量,10/22/2024,2,示例:,有限數(shù)據(jù)的統(tǒng)計(jì)處理,總體,樣本,甲,樣本容
2、量,平均值,500g,乙,平行測(cè)定 3 次,平行測(cè)定 4 次,丙,平行測(cè)定 4 次,有限數(shù)據(jù)的處理:,計(jì)算,估計(jì),顯著性檢驗(yàn),沒有系統(tǒng)誤差,,=,T,有系統(tǒng)誤差,,T,10/22/2024,3,3.1.1 期望值和方差,數(shù)據(jù)集中趨勢(shì)的表示:對(duì)一B物質(zhì)客觀存在量為,T,的分析對(duì)象進(jìn)行分析,得到,n,個(gè)個(gè)別測(cè)定值,x,1,、,x,2,、,x,3,、,x,n,,,平均值 Average,中位數(shù)Median,有限次測(cè)量:測(cè)量值向,平均值,集中,無(wú)限次測(cè)量:測(cè)量值向,總體平均值,集中,數(shù)據(jù)集中趨勢(shì)和分散程度的表示,10/22/2024,4,數(shù)據(jù)分散程度的表示:,極差R,Range,相對(duì)極差,R,偏差,D
3、eviation,平均偏差,Mean deviation,相對(duì)平均偏差,relative mean deviation,標(biāo)準(zhǔn)偏差,standard deviation,相對(duì)標(biāo)準(zhǔn)偏差(變異系數(shù)),Relative standard deviation,(Coefficient of variation,CV,),10/22/2024,5,總體標(biāo)準(zhǔn)偏差與標(biāo)準(zhǔn)偏差的比較:,總體標(biāo)準(zhǔn)偏差,標(biāo)準(zhǔn)偏差,無(wú)限次測(cè)量,,對(duì)總體平均值的離散,有限次測(cè)量,對(duì)平均值的離散,自由度,計(jì)算一組數(shù)據(jù)分散度的獨(dú)立偏差數(shù),自由度的理解:例如,有三個(gè)測(cè)量值,求得平均值,也知道,x,1,和,x,2,與平均值的差值,那么,,x,3
4、,與平均值的差值就是確定的了,不是一個(gè)獨(dú)立的變數(shù)。,10/22/2024,6,平均值的總體標(biāo)準(zhǔn)偏差,對(duì)有限次測(cè)量,S(,x,)的物理意義:,在有限次測(cè)量中,每個(gè)測(cè)量值平均所具有的標(biāo)準(zhǔn)偏差。,10/22/2024,7,對(duì)有限次測(cè)量:,1、增加測(cè)量次數(shù)可以提高精密度。,2、增加(過多)測(cè)量次數(shù)的代價(jià)不一定能從減小誤差得到補(bǔ)償。,結(jié)論:,測(cè)量次數(shù),10/22/2024,8,3.1.2 參數(shù)估計(jì),矩估計(jì)法,最小二乘法,最大似然法,順序統(tǒng)計(jì)量法,估 計(jì) 方 法,點(diǎn) 估 計(jì),區(qū)間估計(jì),10/22/2024,9,一、點(diǎn)估計(jì),從總體中抽取一個(gè)樣本,根據(jù)該樣本的統(tǒng)計(jì)量對(duì)總體的未知參數(shù)作出一個(gè)數(shù)值點(diǎn)的估計(jì),例如,
5、:,用樣本均值,作為,總體未知均值的估計(jì)值就是一個(gè)點(diǎn)估計(jì),2.,點(diǎn)估計(jì)沒有給出估計(jì)值接近總體未知參數(shù)程度的信息,點(diǎn)估計(jì)的方法有矩估計(jì)法、順序統(tǒng)計(jì)量法、最大似然法、最小二乘法等,概念要點(diǎn):,10/22/2024,10,被估計(jì)的總體參數(shù),總體參數(shù),符號(hào)表示,用于估計(jì)的樣本統(tǒng)計(jì)量,一個(gè)總體,均值,方差,兩個(gè)總體,均值之差,方差比,10/22/2024,11,估計(jì)量的優(yōu)良性準(zhǔn)則,無(wú)偏性:,估計(jì)量的數(shù)學(xué)期望等于被估計(jì)的總體參數(shù),P,(,X,),X,C,A,無(wú)偏,有偏,10/22/2024,12,A,B,中位數(shù)的抽樣分布,均值的抽樣分布,X,P,(,X,),有效性:,一個(gè)方差較小的無(wú)偏估計(jì)量稱為一個(gè)更有效
6、的估計(jì)量。如,與其他估計(jì)量,樣本相比均值是一個(gè)更有效的估計(jì)量。,10/22/2024,13,一致性:,隨著樣本容量的增大,估計(jì)量越來(lái)越,接近被估計(jì)的總體參數(shù),A,B,較小的樣本容量,較大的樣本容量,P,(,X,),X,10/22/2024,14,二、區(qū)間估計(jì),1.根據(jù)一個(gè)樣本的觀察值給出總體參數(shù)的估計(jì)范圍,給出總體參數(shù)落在這一區(qū)間的概率,例如,:,總體均值落在,5070,之間,置信度為,95%,樣本統(tǒng)計(jì)量(點(diǎn)估計(jì)),置信區(qū)間,置信下限,置信上限,概念要點(diǎn):,10/22/2024,15,置信區(qū)間估計(jì)內(nèi)容:,2,已知,2,未知,均 值,方 差,置 信 區(qū) 間,10/22/2024,16,問題:,在
7、,的,某個(gè)范圍,內(nèi)包含 的,概率,有多大?,對(duì)有限次測(cè)量,1、概率,2、區(qū)間界限,多大區(qū)間,置信水平,Confidence level,置信度,Degree of confidence,Probability level,置信區(qū)間 C,onfidence interval,置信界限,Confidence limit,必然的聯(lián)系,這個(gè)問題涉及兩個(gè)方面:,10/22/2024,17,總體平均值的置信區(qū)間,概率,區(qū)間大小,例:,包含在,區(qū)間,幾率相對(duì)大,幾率 相對(duì)小,幾率為100%,無(wú)意義,平均值的置信區(qū)間的問題,10/22/2024,18,總體未知參數(shù)落在區(qū)間內(nèi)的概率,表示為,(1-,為顯著性水平
8、,是總體參數(shù),未在,區(qū)間內(nèi)的概率,常用的置性水平值有,99%,95%,90%,相應(yīng)的,為,0.01,,,0.05,,,0.10,置信水平:,10/22/2024,19,區(qū)間與置信水平:,均值的抽樣分布,(1-,)%區(qū)間包含了,%的區(qū)間未包含,1-,a,a,/,2,a,/,2,10/22/2024,20,影響區(qū)間寬度的因素:,1.數(shù)據(jù)的離散程度,,用 來(lái)測(cè)度,樣本容量,,置信水平,(1-,),,影響,Z,的大小,10/22/2024,21,落在總體均值某一區(qū)間內(nèi)的樣本,x,_,X,X,=,Z,x,95%的樣本,-1.96,x,+1.96,x,99%的樣本,-2.58,x,+2.58,x,90%的
9、樣本,-1.65,x,+1.65,x,10/22/2024,22,總體均值的置信區(qū)間,(,已知),1.假定條件,總體服從正態(tài)分布,且總體方差(,),已知,如果不是正態(tài)分布,可以由正態(tài)分布來(lái)近似(,n,30),2.使用正態(tài)分布統(tǒng)計(jì)量,總體均值,在,1-,置信水平下的,置信區(qū)間為,10/22/2024,23,正態(tài)總體實(shí)例:,總體均值的區(qū)間估計(jì),解:,已知,N,(,,0.15,2,),,x,21.4,n,=9,1-=0.95,,/2,=1.96,總體均值,的置信區(qū)間為,我們可以,95,的概率保證該種零件的平均長(zhǎng)度在21.321.5 mm之間,【例】,某種零件長(zhǎng)度服從正態(tài)分布,從該批產(chǎn)品中隨機(jī)抽取件,
10、測(cè)得其平均長(zhǎng)度為21.4mm。已知總體標(biāo)準(zhǔn)差,=0.15mm,試建立該種零件平均長(zhǎng)度的置信區(qū)間,給定置信水平為0.95。,10/22/2024,24,非正態(tài)總體實(shí)例:,總體均值的區(qū)間估計(jì),解:,已知,x,26.0,=6,,n,=100,1-=0.95,,/2,=1.96,我們可以,95,的概率保證平均每天參加鍛煉的時(shí)間在24.827.2 分鐘之間,【例】,某大學(xué)從該校學(xué)生中隨機(jī)抽取100人,調(diào)查到他們平均每天參加體育鍛煉的時(shí)間為26.0分鐘。試以95的置信水平估計(jì)該大學(xué)全體學(xué)生平均每天參加體育鍛煉的時(shí)間(已知總體方差為36小時(shí))。,10/22/2024,25,1.假定條件,總體方差(,),未知
11、,總體必須服從,正態(tài)分布,使用,t,分布統(tǒng)計(jì)量,3.總體均值,在1-,置信水平下的,置信區(qū)間為,總體均值的區(qū)間估計(jì),(,未知),10/22/2024,26,t,分布曲線:,無(wú)限次測(cè)量,得到,有限次測(cè)量,得到,s,t,分布曲線,u,分布曲線,10/22/2024,27,1-,1/2,1/2,-t,f,t,f,t 分布值表,自由度,f,=(n-1),顯著水平,0.50,0.10,0.05,0.01,1,1.00,6.31,12.71,63.66,2,0.82,2.92,4.30,9.93,3,0.76,2.35,3.18,5.84,4,0.74,2.13,2.78,4.60,5,0.73,2.02
12、,2.57,4.03,6,0.72,1.94,2.45,3.71,7,0.71,1.90,2.37,3.50,8,0.71,1.86,2.31,3.36,9,0.70,1.83,2.26,3.25,10,0.70,1.81,2.23,3.17,20,0.69,1.73,2.09,2.85,0.67,1.65,1.96,2.58,P,=1-,,,置信度,,,顯著水平,6次測(cè)量,隨機(jī)誤差落在2.57 范圍內(nèi)的概率為95%。,無(wú)限次測(cè)量,隨機(jī)誤差落在1.96,范圍內(nèi)的概率為95%。,10/22/2024,28,t分布值表,自由度,f=(n-1),顯著水平,0.50,0.10,0.05,0.01,1,
13、1.00,6.31,12.71,63.66,2,0.82,2.92,4.30,9.93,3,0.76,2.35,3.18,5.84,4,0.74,2.13,2.78,4.60,5,0.73,2.02,2.57,4.03,6,0.72,1.94,2.45,3.71,7,0.71,1.90,2.37,3.50,8,0.71,1.86,2.31,3.36,9,0.70,1.83,2.26,3.25,10,0.70,1.81,2.23,3.17,20,0.69,1.73,2.09,2.85,0.67,1.65,1.96,2.58,還原為,u 分布,單位為,單位為,10/22/2024,29,實(shí)例(,未
14、知,),:,總體均值的區(qū)間估計(jì),解:,已知,N,(,,,2,),,x,=,50,s,=8,,n,=25,1-=0.95,,t,/2,=2.064。,我們可以,95,的概率保證總體均值在46.753.3 之間,【例】,從一個(gè)正態(tài)總體中抽取一個(gè)隨機(jī)樣本,,n,=25,其均值,x,=50.0,標(biāo)準(zhǔn)差,s,=8。建立總體均值,m,的95%的置信區(qū)間。,10/22/2024,30,3.2 一般的統(tǒng)計(jì)檢驗(yàn),問題:,是由隨機(jī)誤差引起,或存在系統(tǒng)誤差?,顯著性,檢驗(yàn),顯著性差異,非顯著性差異,系統(tǒng)誤差,校正,隨機(jī)誤差,正常,顯著性檢驗(yàn),(1)對(duì)含量真值為,T,的某物質(zhì)進(jìn)行分析,得到平均值,(2)用兩種不同的方
15、法、或兩臺(tái)不同的儀器、或兩個(gè)不同的實(shí)驗(yàn)室對(duì)同一樣品進(jìn)行分析,得到平均值,但,,但,3.2.1 平均值檢驗(yàn),10/22/2024,31,1-,1/2,1/2,-t,f,t,f,1.平均值與標(biāo)準(zhǔn)值的比較,t 檢驗(yàn)法:,假設(shè)不存在系統(tǒng)誤差,那么,是由隨機(jī)誤差引起的,測(cè)量誤差應(yīng)滿足,t,分布,,根據(jù) 計(jì)算出的,t,值應(yīng)落在指定的概率區(qū)間里。否則,假設(shè)不滿足,表明存在著顯著性差異。,t 檢驗(yàn)法的步驟:,1、根據(jù) 算出,t,值;,2、給出顯著性水平或置信度,3、將計(jì)算出的,t,值與表上查得的,t,值進(jìn)行比較,若,習(xí)慣上說 表明有系統(tǒng)誤差存在。,表示 落在,為中心的某一指定概率之外。在一次測(cè)定中,這樣的幾率
16、是極小的,故認(rèn)為是不可能的,拒絕接受。,10/22/2024,32,【例】,某化驗(yàn)室測(cè)定,CaO,的質(zhì)量分?jǐn)?shù)為,30.43%,的某樣品中,CaO,的含量,得如下結(jié)果:,問此測(cè)定有無(wú)系統(tǒng)誤差?(給定,=0.05),解,查表,比較:,說明,和T 有顯著差異,此測(cè)定有系統(tǒng)誤差。,假設(shè):,=T,10/22/2024,33,u檢驗(yàn)法:,u 檢驗(yàn)法與t 檢驗(yàn)的不同在于用u分布,而不是用t分布。,【例】,某煉鐵廠生產(chǎn)的鐵水,從長(zhǎng)期經(jīng)驗(yàn)知道它的碳含量服從正態(tài)分布,T為4.55%,,為0.08%?,F(xiàn)在又生產(chǎn)了5爐鐵水,其碳含量分別為4.28%,4.40%,4.42%,4.35%,4.37%。試問均值有無(wú)變化?,(給定,=0.05),解,假設(shè):,=,T,查表,比較:,結(jié)論:均值比原來(lái)的降低了。(表明生產(chǎn)過程有差異),問題:如果分析方法存在系統(tǒng)誤差,這個(gè)結(jié)論可靠嗎?,10/22/2024,34,2、兩組平均值的比較,兩個(gè)實(shí)驗(yàn)室對(duì)同一標(biāo)樣進(jìn)行分析,得到:,和,假設(shè)不存在系統(tǒng)誤差,那么:,是由于隨機(jī)誤差引起的,應(yīng)滿足自由度,f,=(n,1,+n,2,2)的,t,分布,,10/22/2024,35,兩組平均值的比