近段時間閱讀了莫斯科物理技術(shù)學院的《基于地質(zhì)統(tǒng)計學的地質(zhì)建?!?/strong>,內(nèi)容通俗易懂。但是對于非石油人士而言,問題的理解還是挺困難的。地質(zhì)統(tǒng)計學主要涉及到地球物理參數(shù)的空間插值算法,即在已知的油井的位置約束下求取位置空間位置的地球物理參數(shù)。這里的地球物理參數(shù)包括:孔隙度、滲透率和飽和度等物理參數(shù)。 為了更好的理解地質(zhì)統(tǒng)計學中的“期望”、“方差”、“變差函數(shù)”、“克里金插值”等概念,我們以孩子的擇校為例進行講解說明。 假設:你帶著孩子從一個城市來到東營,孩子需要做插班生,令你頭疼的是孩子的數(shù)學成績不好,經(jīng)過協(xié)商只有兩個班級對你開放,為了讓孩子的數(shù)學成績盡可能提高,你能控制兩個變量: 首先我們要選擇班級。按照常規(guī)的理論應該是選擇數(shù)學成績好的班級來插班更有利于成績的提高。現(xiàn)在有一個問題怎么判斷班級學習成績的好壞呢。這里大家會說很簡單啊,哪個班級的平均分高就去哪個班級。很對,這個平均分在統(tǒng)計學上說法就是期望,也就是哪個班級的數(shù)學成績的期望越高就應該插入哪個班級。 現(xiàn)在遇到第二個問題,班級學生數(shù)學成績的穩(wěn)定程度是否需要考慮呢?平均分很好的展示了你家孩子可能的分數(shù),但是如果你選擇一個成績變化大的班級,很可能拿到平均分的只是“別人家的孩子”,而你的孩子可能是“被平均”(成績可能會遠低于平均分,當然也有可能遠高于平均分),那這個成績變化的衡量參數(shù)是什么呢?就是統(tǒng)計學中的方差表示為學生成績偏離平均分的平方的平均值(計算過程分三步:1,計算平均分2,每個學生的成績減去平均分后取平方簡稱c【有正,有負】3,將c取平均值)。因此我們看到方差也是擇校的一個重要指標,如果兩個班級平均分一樣的話,如果是保守型的家長會選擇方差小的班級,最好是方差等于0,這樣孩子的成績就極有可能是平均分,如果是喜歡刺激的家長可能會選擇方差大的學校。 為了簡化問題,我們假設兩個班級的平均分和方差都是一樣的。我們應該怎么選擇班級?現(xiàn)在我們回想一下,我們不僅可以選擇班級,而且可以 選擇座位啊!按照“近朱者赤近墨者黑”原理,應該盡量離學習好的學生的座位越好,這里就包含一個概念就是“越近越好”,但是我們應該怎么衡量“多近才叫近”,因此我們需要刻畫兩個學生的成績的差與他們距離的關(guān)系。有一個相似稱呼在地質(zhì)統(tǒng)計學中叫做“變差函數(shù)”,具體的計算方法可以包括三步: 現(xiàn)在我們終于描述出了每一個學生作用于其他學生的程度,隨著距離的增大分數(shù)差逐漸增大,當距離大到一定程度,就會穩(wěn)定下來不會產(chǎn)生作用。 現(xiàn)在我們再引入一個約束條件,就是“座位不是你想選,想選就能選”。你需要用錢來購買優(yōu)勢的座位,這樣就會存在一個問題,你口袋里的錢是一定的,如果你能根據(jù)已知的學生的成績和位置推斷出教室里面的不同位置的成績分數(shù),然后對比座位的“開價”你就能夠方便的為自己決策了。如果我們能夠?qū)ⅰ皩W生成績與距離”的變化趨勢納入到我們插值過程中,我們得到接結(jié)果應該會更合理。這一種插值方法在地質(zhì)統(tǒng)計學中就稱為克里金插值算法。 克里金插值算法有很多變種其中有一種就是同位協(xié)克里金插值算法,方法應用的條件就是,對于班級成績我知道了該班級所有位置的物理成績時,應該怎樣進行插值呢,現(xiàn)在就需要利用協(xié)克里金插值算法將物理成績座位約束條件納入進來。 很多家長認為,我有了“克里金插值”算法就可以計算出所有座位的數(shù)學成績了,但是答案是“不行?。?!”為啥我們考慮一下,當我們選擇的座位遠離已知成績的座位太大的時候,我們預測的成績將會無限接近于班級的平均分。這樣的預測結(jié)果顯然是違背常識的,我們再仔細分析一下違反了哪些常識?“平均分”沒有問題!方差有問題了!影響力指數(shù)有問題了! 那我們怎么得到一個更為真實的班級成績呢?現(xiàn)在就用到地質(zhì)統(tǒng)計學中的隨機模擬。我們再重新回到克里金插值算法,克里金插值算法首先可以推算出未知座位處的數(shù)學成績,同時可以得到這個成績的可信程度,具體的信息就是你這個位置的分數(shù)是80分,更準確的說是70-90分的概率是95%。我們分析一下邊緣的分數(shù)的“平均化問題”,主要原因是邊緣座位沒有已知的控制成績,因此我們能不能人為的加一些控制點?答案是可以的!那怎么加呢?隨機添加!隨機主要體現(xiàn)在兩個方面,首先是位置隨機,我計算任意一個不知道分數(shù)的座位的成績和置信區(qū)間,然后再該置信區(qū)間按照概率選擇一個數(shù)學成績,然后將該位置的數(shù)學成績最為已知成績加入到下一次的隨機計算中,只到所有的座位的分數(shù)計算出來。 最終我們可以推測出每個位置處的數(shù)學成績,該成績與真實 成績平均分一致、方差相似以及距離影響指數(shù)一致。基于預測的學習成績,可以很好的解決孩子的擇校問題。 |
|