這章開始我們開始介紹數(shù)理統(tǒng)計的內(nèi)容。概率論是研究的工具,那么數(shù)理統(tǒng)計就是研究的方法。大學里面概率論和統(tǒng)計是一門課,當時其實根本沒有學明白,稀里糊涂?,F(xiàn)在來理解就是研究的工具和方法的關系,而研究的對象隨機現(xiàn)象。在概率論中,我們都假設某個隨機變量的分布是已知的,告知了我們一些性質(zhì)。而數(shù)理統(tǒng)計將帶來更多的未知,要解決概率論中那些個前提假設如何來的問題,教會我們?nèi)绾螐拇罅康臄?shù)據(jù)中找到規(guī)律、做出推斷,是更有用的部分。比如,我們從數(shù)據(jù)中發(fā)現(xiàn)可能一個隨機現(xiàn)象可以用正態(tài)分布來描述,那么這種感覺或者判斷在我們不了解全部信息的情況下是否正確呢?這就需要用到統(tǒng)計學的方法,求得模型的參數(shù)、為判斷提供依據(jù),告訴我們?nèi)绾螐挠^察中得到規(guī)律!個人覺得學習知識脈絡是最重要的,理清楚脈絡才能融會貫通,運用自如。 我們先梳理一下統(tǒng)計的基本概念: 1、總體:試驗的全部可能的觀察值;(是不是樣本空間呢?) 2、個體:每一個可能的觀察值;(是不是樣本點?) 3、容量:總體中包含的個體個數(shù);容量有限的稱為有限容量總體,無限容量的稱為無限總體。例如投擲硬幣,就是一個有限總體,而測量湖水深度就是一個無限總體。(連續(xù)隨機變量是有限總體么?)擔但這個劃分也不是絕對的,如果一個很大的量我們也可以將其近似看成無限的,比如測量全國人民身高14億人就可以近似看成無限總體。 通過上述定義就可以將現(xiàn)實中的樣本與概率中的概念聯(lián)系起來了??傮w對應著就是我們的樣本空間,個體的觀察值(每一次試驗結(jié)果)對應樣本空間的樣本點,我們可以用一個隨機變量來對應這個樣本空間,通過研究隨機變量的分布函數(shù)和數(shù)字特征來研究總體的特點和規(guī)律。是不是很順??!通過幾個定義,從概率論的概念對應到了實際問題。這個就叫建模!把身邊的事情用數(shù)學模型來描述,是很爽的一件事,如果模型建對了你就可以解釋現(xiàn)象、預測未來了,哈哈哈哈。 舉個例子吧,比如我們生產(chǎn)了一批零件,這批零件就是一個總體,有合格的也有不合格的。如果我要了解這批零件的合格率但又不能全部每一個都測量一遍,我們就可以用一個隨機變量X來對應(X代表這個零件的合格率),模型就建完了。接下來我們可以研究X的分布函數(shù)、數(shù)字特征了。如何研究呢?不知大家有沒有想起大數(shù)定律,如果有那么說明你前面的內(nèi)容掌握的不錯了。我們可以采用抽樣幾批求平均的方法,通過小樣本的研究來近似總體的特征。這個就是統(tǒng)計學的方法了。 因為總體的分布通常是未知的,一般都是通過抽樣的方法來獲得總體特征進行推斷。所以抽樣概念及方法自然而然就需要提煉出來了。 4、樣本:從總體抽取一部分數(shù)據(jù)對總體進行推斷,被抽出的部分個體叫做樣本; 5、簡單隨機樣本:在相同條件在對總體進行n次抽樣并記錄觀察值,每一次觀察值都是獨立的,而且與總體有相同的分布函數(shù),則稱為容量為n的簡單隨機樣本。也就是一個簡單隨機樣本包括了n個觀察值。比如我想考察北京市的人均收入,那簡單隨機樣本應該怎么選呢?我就不能過多的考慮差異,按地區(qū)抽樣是比較合理的,因為不同人們的地域分布可以假設是均勻的,高低收入人群的分是類似的。(可能例子不是太恰當,但是大家理解意思就好了),就是要求抽樣的前提一致,樣本之間無關聯(lián)。這樣我們就可以簡單求得總體分布(X1,X2,X3)=F(X1)*F(X2)...F(Xn)-假設樣本無關,所以從獨立性的定義出發(fā)聯(lián)合分布的概率等于概率之積,即從樣本的分布得到了總體的分布。這是從部分感知總體的方法,但是約束也是很清晰的就是部分之間沒有聯(lián)系! 6、統(tǒng)計數(shù)據(jù)的圖形表示:直方圖、箱線圖。直方圖就不解釋了,就是將統(tǒng)計數(shù)據(jù)用曲線的形式表示出來,有很多例子比如圖像處理中的灰度圖就是典型的直方圖,橫坐標是灰度縱坐標是點數(shù),這種直方圖外部輪廓線從大數(shù)定律的角度出發(fā)接近于總體的概率密度函數(shù)。另外一種圖要多說兩句,叫箱線圖。箱線圖就是把數(shù)據(jù)分布表示在圖上的一種方法,非常有利于比較不同組數(shù)據(jù)之間的差異。分位點就是數(shù)據(jù)集的劃分,通常有第一分位點、第三分位點,通俗理解就是將數(shù)據(jù)排序后得到的最大、最小、1/4大、1/2大、3/4大以及每個區(qū)間的數(shù)據(jù)個數(shù)用圖像表示出來。這樣不光可以看到數(shù)據(jù)的個數(shù),還可以知道數(shù)據(jù)按一個直觀分布情況。同時箱線圖還可以排除測試中的異常數(shù)值。箱線圖特別適合用于不同組之間的數(shù)據(jù)比較。如下圖,中間的黑線就是中位數(shù),我們可以看到這些房價的總體是平穩(wěn)的,99年的房價5萬元以下的比較集中,而2003年的房價6-10萬這個區(qū)間分布比較集中(此例為示意,勿當真)。大家可以感受一下,箱線圖中表達的信息還是非常豐富的。 |
|
來自: taotao_2016 > 《概率》