本文首發(fā)于 ”百味科研芝士“ 微信公眾號,轉(zhuǎn)載請注明:百味科研芝士,F(xiàn)ocus科研人的百味需求 一般來說,我們的學(xué)術(shù)研究里,需要統(tǒng)計(jì)學(xué)意義,以證實(shí)數(shù)據(jù)在實(shí)驗(yàn)/對照組的差異,當(dāng)p<0.05或者p<0.01,就可認(rèn)為該研究有統(tǒng)計(jì)意義,該研究在實(shí)驗(yàn)條件下,出現(xiàn)了不一樣的情況。那么,一些研究的p>0.5,就可認(rèn)為無差異,事實(shí)也是這樣? 一、Nature頭條:2019年3月20日,Nature雜志官網(wǎng)發(fā)表了一篇名為《科學(xué)家們起來反對統(tǒng)計(jì)學(xué)意義》(Scientists rise up against statistical significance)的文章,并以封面頭條掛在雜志官網(wǎng)。該文列出了854名已公開表明支持態(tài)度的科學(xué)家名單,并號召科學(xué)家放棄以p值為判斷標(biāo)準(zhǔn)的“統(tǒng)計(jì)學(xué)意義”。 (《科學(xué)家們起來反對統(tǒng)計(jì)學(xué)意義》的前三位作者) 一直以來,前人的經(jīng)驗(yàn)告訴我們,統(tǒng)計(jì)學(xué)上無顯著性的結(jié)果并不能“證明”零假設(shè)(實(shí)驗(yàn)/對照組之間沒有差異或治療對某些測量結(jié)果無影響)。事實(shí)上,統(tǒng)計(jì)上顯著的結(jié)果也沒有“證明”某些其他假設(shè)。因此,作者以該文呼吁科學(xué)家不可繼續(xù)成為這些誤解的犧牲品。
該文一出,瞬間引爆整個學(xué)術(shù)界。 活躍在某特的科學(xué)家相繼表態(tài),有贊同,有質(zhì)疑,也有辯證看待,更稱“p值已成為干預(yù)著研究的意義解讀的暴君”。
走在十字路口的今天,對于p值的討論也愈發(fā)激烈。一方面,p值仍然被一些研究者錯誤地作為衡量臨床效應(yīng)大小的標(biāo)準(zhǔn),而事實(shí)上兩者并沒有什么一一對應(yīng)的關(guān)系;另一方面,樣本量對p值的影響極大,對于擁有幾十萬級別以上的樣本量的研究而言,獲得一個p<0.05的結(jié)果也恐怕也只是走個流程。 (關(guān)于P值的爭議) 幾個大雜志期刊也沒有閑著,紛紛加入p值的談?wù)摦?dāng)中。從引用的情況來看,Nature并未當(dāng)天的首發(fā),但是鑒于Nature的地位,成了引發(fā)討論的關(guān)鍵爆點(diǎn)。
可見,關(guān)于p值的討論已在學(xué)術(shù)界掀起大浪。 二、P值的爭議史而事實(shí)上,關(guān)于P值的爭議,在1988年,一篇《The end of p value?》就已開始對其提出質(zhì)疑。
直至2016年,一篇發(fā)表在JAMA的基于超過1200萬篇MEDLINE摘要和80萬篇PubMed Central(PMC)全文(包含摘要)的自動文本挖掘的文獻(xiàn),才比較系統(tǒng)地去闡述了過去25年(1990-2015年)生物醫(yī)學(xué)文獻(xiàn)中的p值變化。
研究者發(fā)現(xiàn),從1990年到2014年,MEDLINE摘要中p值出現(xiàn)比例已從7.3%上升到15.6%,其中隨機(jī)對照試驗(yàn)首位,摘要中報(bào)告p值的比例達(dá)54.8%(95%CI, 54.0% - 55.6%),臨床試驗(yàn)其次,;而Meta分析類增長速度最快,與1990年的情況相比,幾乎增加了三倍,達(dá)到35.7%(95%CI, 34.5%-37.0%)。此外,有p值的摘要和全文中,96%會至少報(bào)告1個“統(tǒng)計(jì)學(xué)顯著”的結(jié)果。 可見,隨著時(shí)間的推移,越來越多的科學(xué)論文在研究結(jié)果中報(bào)告了p值,且出現(xiàn)頻率最高的是“p<0.05或p<0.001”。
緊接著,2016年,針對p值的過分強(qiáng)調(diào),美國統(tǒng)計(jì)學(xué)會(ASA)發(fā)布了一個關(guān)于統(tǒng)計(jì)意義和p值的聲明,但是,這只是份聲明,并無實(shí)際操作空間。 當(dāng)ASA的聲明淪為一張廢紙,而P值目前存在的問題尚未解決,因此,一個簡單粗暴的方法:降低我們傳統(tǒng)認(rèn)為的“顯著性水平”——P<0.05,被提上日程。2017年7月,Nature就把顯著性水平從P<0.05降到P<0.005對受訪者進(jìn)行調(diào)查時(shí),發(fā)現(xiàn)表示支持的比例竟高達(dá)69%。 似乎大伙并不抗拒這樣的改變。但是,不可否認(rèn)的是,持反對的比例還是高達(dá)31%。至于理由:一是研究成本,顯著性水平的降低會增大研究所需樣本量;二是辯證看待,鑒于科學(xué)研究的多元化屬性,認(rèn)為單一P值評論研究的價(jià)值會阻礙研究的進(jìn)展。
當(dāng)然,還有一些更為極端的做法。,如Political Analysis,Basic and Applied Social Psychology雜志直接宣布禁用p值,可當(dāng)被Nature反問“沒了P值怎么辦?”時(shí),雜志社也只有無奈。 順著時(shí)間點(diǎn),回到Nature頭條。該文發(fā)現(xiàn),當(dāng)區(qū)間估計(jì)包括嚴(yán)重的風(fēng)險(xiǎn)增加時(shí),得出認(rèn)為統(tǒng)計(jì)上不顯著的結(jié)果的“無關(guān)聯(lián)”結(jié)論是荒謬的。聲稱這些結(jié)果與顯示相同觀察效果的早期結(jié)果形成對比同樣荒謬。然而,這些常見的做法表明,依賴統(tǒng)計(jì)顯著性的閾值會誤導(dǎo)我們。 該文還表示,這種類似的錯誤很普遍。對數(shù)百篇文章的調(diào)查發(fā)現(xiàn),統(tǒng)計(jì)上不顯著的結(jié)果被解釋為在一半左右表示“無差異”或“無影響”。
從1988年的《The end of p value?》到最近的Nature頭條、854位科學(xué)家聯(lián)合署名的《Scientists rise up against statistical significance》,30年的爭議,到現(xiàn)在都還沒有一個大家都認(rèn)可的定論,那么,我們不禁要問,這些關(guān)于p值的爭議是源于哪,是科學(xué)研究進(jìn)展的需要,還是p值本身?
那我們不妨稍回顧下p值本身。 三、p值與假設(shè)檢驗(yàn)、顯著水平的關(guān)系說到p值,就離不開假設(shè)檢驗(yàn)、顯著水平(a)。 1. 假設(shè)檢驗(yàn)以拋硬幣為例。
你說你的硬幣是公平的,也就是“花”和“字”出現(xiàn)的概率是差不多的。然后,你想和我打賭,而我提出要檢查下你的硬幣到底是不是公平的,萬一是兩面“花”怎么辦?電影里面不是經(jīng)常出現(xiàn)這樣的橋段?
后來我們提出了折衷的方案,拋幾次硬幣,看看結(jié)果是不是公平的。
扔了兩次,均是“花”朝上,幾率是0.5*0.5=0.25,也屬正常,繼續(xù)扔;后扔了四次,均是“花”朝上,幾率是0.54=0.0625,雖感覺有點(diǎn)不正常,但不排除是運(yùn)氣,繼續(xù)扔;
再扔了十次,均是“花”朝上,那我就認(rèn)為你這枚硬幣很有可能不是公平的。
這就是假設(shè)檢驗(yàn): 你提出假設(shè):說你的硬幣是公平的 我提出要檢驗(yàn)?zāi)愕募僭O(shè):扔十次,看實(shí)驗(yàn)的結(jié)果是不是和你的假設(shè)相符。
2. p值接著上面來。為了完成假設(shè)檢驗(yàn),需要先定義一個概念:p值。
根據(jù)上面的描述,這里假設(shè)檢驗(yàn)的思路就是: 假設(shè):硬幣是公平的 檢驗(yàn):認(rèn)為假設(shè)是成立的,然后扔十次,看結(jié)果與假設(shè)是否相符
反復(fù)扔硬幣應(yīng)該符合二項(xiàng)分布(這就不解釋了),也就是: 其中,n代表扔硬幣的次數(shù),u代表“花”朝上的概率。那么,在我們認(rèn)為硬幣是公平的前提下,扔10次硬幣應(yīng)該符合以下分布: 在假如硬幣是公平的情況下的分布圖上,我扔了十次之后得到的結(jié)果是,有八次正面: 這個時(shí)候有個數(shù)學(xué)大佬就出來定義了一個稱為P值(p-value)的概念:把八次正面的概率,與更極端的九次正面、十次正面的概率加起來: 得到的就是(單側(cè)P值): 其實(shí),出現(xiàn)兩次正面、一次正面、零次正面的概率也是很極端的,加起來,就是雙側(cè)P值: 3. 為什么要把更極端的情況加起來?根據(jù)扔硬幣這個例子,可能你會覺得,我知道八次正面出現(xiàn)不正常就行了,干嘛要把九次、十次加起來?
我覺得有這么一個現(xiàn)實(shí)原因,比如我要扔1000次硬幣來測試假設(shè)是否正確。 根據(jù)中心極限定理,我們知道,可以用正態(tài)分布來近似,如得到了530次正面,用正態(tài)分布來計(jì)算就比較簡單。
但是,對于正態(tài)分布,我沒有辦法算單點(diǎn)的概率(連續(xù)分布單點(diǎn)概率為0),我只能取一個區(qū)間來算極限,所以就取530以及更極端的點(diǎn)組成的區(qū)間: 事實(shí)上,P值是我們通過轉(zhuǎn)換得到的一個值,在假設(shè)檢驗(yàn)中,我們得到的t值,z值,F值都可以轉(zhuǎn)換為P值,比如Z=1.96,我們就可以通過查表或者統(tǒng)計(jì)軟件計(jì)算得到對應(yīng)的P=0.05。那么P值是什么意思呢?用書上的定義來講,P值是當(dāng)原假設(shè)為真的時(shí)候,得到當(dāng)前結(jié)果以及更極端結(jié)果的概率。
另外,關(guān)于P值,說明下:取單側(cè)還是雙側(cè),取決于你的應(yīng)用;什么叫做更極端的點(diǎn),也取決于你的應(yīng)用。 4. 顯著水平繼續(xù)拋硬幣。扔10次硬幣,要是出現(xiàn)7次正面,可以認(rèn)為“硬幣是不公平的”,還是9次正面之后我才能確認(rèn)“硬幣是不公平的”?這是一個較為主觀的標(biāo)準(zhǔn)。
我們一般認(rèn)為p≤005,就可以認(rèn)為假設(shè)是不正確的。因此,0.05這個標(biāo)準(zhǔn)就是顯著水平,當(dāng)然選擇多少作為顯著水平也是主觀的。
比如,上面的扔硬幣的例子,如果取單側(cè)P值,那么根據(jù)我們的計(jì)算,如果扔10次出現(xiàn)9次正面: 我們可以認(rèn)為剛開始的假設(shè)錯的很“顯著”,也就是“硬幣是不公平的”。 若扔10次,出現(xiàn)8次正面: 事實(shí)上,這個和我們的顯著水平是一樣的啊,我們也可拒絕假設(shè),只是沒有那么“顯著”了。
再舉個例子: 在這個右側(cè)檢驗(yàn)里,如果α水平設(shè)定為0.05,那么區(qū)域B面積為0.05。所以在這個假設(shè)檢驗(yàn)里,若原假設(shè)為真,則我們一次抽樣結(jié)果只有5%的可能性落在區(qū)域B里,而依據(jù)小概率事件,我們可認(rèn)為這樣的小概率結(jié)果不會在一次抽樣中發(fā)生。如果它發(fā)生了,那么就說明我們所檢驗(yàn)的樣本并不來自于這個總體,所以我們拒絕原假設(shè)。
當(dāng)P<α,表達(dá)的是,在一次抽樣中出現(xiàn)當(dāng)前結(jié)果及更極端結(jié)果的可能性比我們認(rèn)為的在一次抽樣中不可能發(fā)生的小概率事件的概率更小,即我們的觀察結(jié)果比我們設(shè)定的拒絕程度更加極端。因此,在樣本量不變的情況下,P值比α水平越小,我們越有信心可認(rèn)為這個樣本不屬于原假設(shè)分布代表的總體,則越有信心拒絕原假設(shè)。 (本文的第三部分主要引用了馬同學(xué)的“如何理解假設(shè)檢驗(yàn)、P值?”和胡傳鵬的“統(tǒng)計(jì)知識 | 談?wù)?span lang="EN-US">P值和α水平”) 四、造成統(tǒng)計(jì)意義的誤解,是p值,還是我們自身?事實(shí)上,很多人會把P值當(dāng)作我們拒絕原假設(shè)的犯錯概率,但其實(shí)拒絕原假設(shè)犯錯屬于一類錯誤。錯誤的概率是我們的α,P值只是我們根據(jù)一次抽樣結(jié)果計(jì)算出來的值。這就好比我們設(shè)定超速的標(biāo)準(zhǔn)為120km/h,而我們探測到n輛汽車的平均時(shí)速為110km/h,但我們不能因此就認(rèn)為超速標(biāo)準(zhǔn)為110km/h。
在2016年發(fā)表在JAMA的文章中,研究者分析了MEDLINE摘要和報(bào)告中報(bào)道的p值,在1990年至2015年的PMC文章中,幾乎所有的摘要和p值的文章報(bào)告了統(tǒng)計(jì)學(xué)上顯著的結(jié)果。該文指出,文章應(yīng)該包括置信區(qū)間和不確定性指標(biāo),而不是報(bào)告孤立的p值。
緊接著,“Don’t” Is Not Enough.(The American Statistician : Statistical Inference in the 21st Century: A World Beyond p < 0.05)事實(shí)上,關(guān)于p值,該文給出了以下幾點(diǎn): · 不要僅根據(jù)關(guān)聯(lián)或效應(yīng)是否具有“統(tǒng)計(jì)學(xué)意義”(即p值超過某個閾值,如p<0.05)得出結(jié)論。 · 不要僅僅因?yàn)樗哂薪y(tǒng)計(jì)意義而認(rèn)為存在關(guān)聯(lián)或效應(yīng)。 · 不要僅僅因?yàn)樗鼪]有統(tǒng)計(jì)學(xué)意義而認(rèn)為缺乏關(guān)聯(lián)或效應(yīng)。 · 不要相信你的p值給出了機(jī)會單獨(dú)產(chǎn)生觀察到的關(guān)聯(lián)或效應(yīng)或者你的檢驗(yàn)假設(shè)為真的概率的概率。 · 基于統(tǒng)計(jì)顯著性(或缺乏統(tǒng)計(jì)顯著性),不要對科學(xué)或?qū)嵺`重要性做任何結(jié)論。 知道什么與p值無關(guān)確實(shí)是必要的,但這還不夠。 (圖源https://larspsyll./2013/03/19/misunderstanding-the-p-value-here-we-go-again/) 而在本文重點(diǎn)關(guān)注的Nature關(guān)于p值討論的頭條,先是表達(dá)了幾個意思:一是 以單一p值為判斷標(biāo)準(zhǔn)的統(tǒng)計(jì)意義對科學(xué)界和那些依賴科學(xué)建議的人造成了很大的危害;二是在確定其確定性的同時(shí),也應(yīng)在每項(xiàng)研究中從多個角度考慮不確定性,以得出更為客觀的結(jié)論。三是丟棄認(rèn)知偏見,把結(jié)果分成“統(tǒng)計(jì)顯著性”和“統(tǒng)計(jì)非顯著性”,這不是一種正確的科學(xué)研究思維。
同時(shí)指出,期刊編輯們的基于p值的評判標(biāo)準(zhǔn),鼓勵研究人員選擇一些對于某些期望的結(jié)果具有統(tǒng)計(jì)顯著性(僅為發(fā)表文章用途),或者對于不期望的結(jié)果沒有統(tǒng)計(jì)顯著性,如藥物的潛在副作用,從而導(dǎo)致研究無意義的誤判。
(圖源https://www./blog/2016/08/02/where-have-all-the-statisticians-gone-big-data-lessons-for-us-all/)
而關(guān)于退休的統(tǒng)計(jì)意義,作者希望是個什么樣的?
第一,希望作者的方法部分和數(shù)據(jù)列表更加詳細(xì)和細(xì)致,強(qiáng)調(diào)估計(jì)和它們的不確定性。例如通過明確地討論它們的間隔的下限和上限。當(dāng)報(bào)告P值時(shí),它們將以合理的精度給出(例如,P= 0.021或P= 0.13),而不是二元不等式(P<0.05或P>0.05)。解釋或發(fā)布結(jié)果的決定不會基于統(tǒng)計(jì)閾值。人們花在統(tǒng)計(jì)軟件上的時(shí)間會更少,而且更多的時(shí)間在思考。
第二,退出統(tǒng)計(jì)學(xué)意義,監(jiān)測文獻(xiàn)中的統(tǒng)計(jì)濫用應(yīng)該是科學(xué)界的一個持續(xù)優(yōu)先事項(xiàng)。濫用統(tǒng)計(jì)意義對科學(xué)界和依賴科學(xué)建議的人造成了很大的傷害。p值,區(qū)間和其他統(tǒng)計(jì)測量都有它們的位置,但現(xiàn)在是退休統(tǒng)計(jì)意義的時(shí)候了。
最后,作者強(qiáng)調(diào),依據(jù)退休統(tǒng)計(jì)意義的呼吁,想聽到的是,是或否的決定。但對于監(jiān)管,政策和商業(yè)環(huán)境中經(jīng)常需要的選擇,基于所有潛在后果的成本,收益和可能性的決策總是優(yōu)于僅基于統(tǒng)計(jì)顯著性的決策。
所以,你會做出哪個決定,是,OR否? (圖源https://www./statistical-significance-for-cro/)
參考資料: 1. Scientists rise up against statistical significance.Nature 567, 305–307 (2019) 2. The end of the p value?. Br Heart J,1988;60:177-80 3. Evolution of Reporting P Values in the Biomedical Literature, 1990-2015.JAMA. 2016 Mar 15;315(11):1141-8 4. https://www./news/psychology-journal-bans-p-values-1.17001 5. https:///journals/jama/article-abstract/2676503 6. https://mp.weixin.qq.com/s/tmlaB4nwK0EPxaAmsIVScA 7. https://mp.weixin.qq.com/s/McChzQFLV_2XXOZp11djGw 8. Redefine or justify? Comments on the alpha debate.Psychon Bull Rev. 2018 Sep 27 |
|