邏輯斯蒂回歸(logistic regression),亦稱邏輯特回歸(logit regression),是音譯,有點(diǎn)像佛經(jīng)里的“阿耨多羅三藐三菩提”,聽起來神秘兮兮,其實(shí)并不復(fù)雜?!鞍Ⅰ穸嗔_三藐三菩提”指的是“無上正等正覺”,即最高的智慧覺悟。不過,鳩摩羅什等大德翻譯佛經(jīng)時(shí),覺得漢語的意譯不能完全表達(dá)梵文原意,容易讓人望文生義,采用音譯,目的是讓誦經(jīng)的人多用心想想。漢語世界的統(tǒng)計(jì)專家,翻譯logistic regression的時(shí)候采用音譯,原因好像有點(diǎn)勉強(qiáng)。采用意譯,還是不大好懂,但至少不容易起誤導(dǎo)作用,讓人覺得這個(gè)分析方法跟“邏輯”有關(guān)系。采用意譯,logisitic regression是以近似線性回歸的方式分析一件事情(事件)發(fā)生(或一個(gè)個(gè)體具有某個(gè)屬性)的概率。概率是一件事情(時(shí)間)發(fā)生(或一個(gè)個(gè)體具有某個(gè)屬性)的可能性,概率的變異局限在0到1之間。一件事情發(fā)生的概率的變異區(qū)間從極?。o限接近0)到極大(無限接近1),統(tǒng)計(jì)學(xué)家先把概率轉(zhuǎn)換成發(fā)生比(odds),即一個(gè)事件發(fā)生的概率與其不發(fā)生的概率的比率(發(fā)生的概率為分子,不發(fā)生的概率為分母)。然后取發(fā)生比的自然對數(shù)(natural logarithm)(即以2.718為底的對數(shù)),這個(gè)對數(shù)就是logit,即 log of it,natural logarithm of it,it就是發(fā)生比。以logit為因變量的回歸分析就是logit regression(邏輯特回歸),為了悅耳,叫做logistic regression(邏輯斯蒂回歸)。換句話說,邏輯斯蒂回歸是一種以概率的變化為因變量的近似線性回歸的分析工具,只不過繞了兩個(gè)彎子,把作為因變量的概率轉(zhuǎn)換成了發(fā)生比的自然對數(shù)。統(tǒng)計(jì)學(xué)家把概率轉(zhuǎn)換成發(fā)生比的自然對數(shù),不是畫蛇添足,而是為了讓我們能夠以近似線性回歸的方式分析概率的變化,同時(shí)又不做出不合乎邏輯的(荒謬)的預(yù)測。我們喜歡用線性方式想問題,正相關(guān)是水漲船高,負(fù)相關(guān)是此起彼伏或此消彼長,不相關(guān)是任憑風(fēng)浪起穩(wěn)坐釣魚船,很好懂,還有三分詩意。麻煩的是,線性回歸(最小二乘回歸)要求因變量是連續(xù)變量,而社會(huì)科學(xué)中常見的因變項(xiàng)是二分變項(xiàng),例如是否投票,是否支持某個(gè)政黨,是否支持某個(gè)候選人。測量二分變項(xiàng),最直觀的方法是用二分法,是=1,否=0。但是,世界并不這么簡單。以考試為例,如果是二分法,只分及格和不及格,那么及格=1,不及格=0。但是,及格的人,成績并不相同,有的輕松及格,有的勉強(qiáng)及格;不及格的人,成績也不相同,有的差一點(diǎn)兒,有的差很多。為了盡量深入地分析現(xiàn)實(shí),我們需要分析及格的概率,概率從0到1,理論上來說是個(gè)無限的變異區(qū)間,從無限趨近0到無限趨近1??墒?,我們不能簡單地用線性方式分析概率的變化,否則會(huì)得出邏輯上荒謬的結(jié)果。如果直接以及格的概率為因變量,根據(jù)線性回歸分析的結(jié)果,當(dāng)自變量取一定值的時(shí)候,因變量(概率)可能小于0或大于1,二者都是邏輯上不可能的(荒謬的)。把概率轉(zhuǎn)換成發(fā)生比的自然對數(shù),就不會(huì)做出荒謬預(yù)測了。轉(zhuǎn)化后,與無限趨近0的概率相對應(yīng)的發(fā)生比的自然對數(shù)是負(fù)無窮(negative infinity),與50/50(五五開,隨機(jī))的概率相對應(yīng)的發(fā)生比的自然對數(shù)的是0,與無限趨近1的概率相對應(yīng)的發(fā)生比的自然對數(shù)是正無窮(positive infinity)。 數(shù)學(xué)的“無窮”不好想象,我們進(jìn)一步簡化。在社會(huì)科學(xué)研究中,學(xué)者們實(shí)際關(guān)心的極小概率是0.0001(萬中有一,萬一),隨機(jī)概率是0.5(五五開),極大概率是0.9999(萬僅一失),也就是關(guān)注概率從0.0001到0.9999的變異。我們虛構(gòu)個(gè)例子。假設(shè)我們分析博士生在論文上花的時(shí)間與寫出完美博士論文之間的關(guān)系。是否寫出了完美論文是因變項(xiàng),我們用概率測量為測量工具,測量單位是萬分之一,即0.0001的概率。研究寫作所花的時(shí)間(工夫)是自變項(xiàng),我們以小時(shí)為測量單位,簡稱為時(shí)數(shù)。我們進(jìn)一步假設(shè),博士生每多下一小時(shí)工夫,即工作時(shí)數(shù)增加一個(gè)單位,做出完美博士論文的概率就增加萬分之一,即0.0001;相反,博士生每少下一小時(shí)工夫,即工作時(shí)數(shù)減少一個(gè)單位,做出完美博士論文的概率就減小萬分之一。假定一個(gè)博士生一共投入9999小時(shí),那么他做出完美博士論文的概率就到了0.9999。我們畫個(gè)散點(diǎn)圖,以從1到9999的工作時(shí)數(shù)為橫軸,以完成博士論文的概率為縱軸(從0.0001到0.9999),我們會(huì)得到一條標(biāo)志這兩個(gè)變量正相關(guān)的斜線。 但是,這樣的線性回歸有兩個(gè)問題。第一,完美永遠(yuǎn)達(dá)不到,所以上面的研究假定不成立。現(xiàn)實(shí)中,隨著博士生工作時(shí)間的增加,他會(huì)越來越接近完成一部完美的博士論文,但永遠(yuǎn)達(dá)不到完美??墒?,如果我們做簡單的線性回歸,一定得出結(jié)論,就是如果博士生工作一萬小時(shí),他做出完美博士論文的概率是1。第二,更麻煩的問題是,如果博士生工作超過一萬小時(shí),他做出完美博士論文的概率大于1,而概率不可能大于1。 把概率轉(zhuǎn)換成發(fā)生比的自然對數(shù),可以讓我們避開這個(gè)問題。我們?nèi)匀灰詫懖┦空撐臑槔?。為了簡化,我們把極小概率界定為0.0001(萬中有一,萬一),把極大概率界定為0.9999(萬僅一失)。這時(shí),情況就簡單了。極小概率是0.0001,發(fā)生比是0.0001(0.0001/0.9999),0.0001的自然對數(shù)是-9.21;隨機(jī)概率是0.5(五五開),發(fā)生比是1(0.5/0.5),1的自然對數(shù)是0;極大概率是0.9999(萬僅一失),發(fā)生比是9999(0.9999/0.0001),9999的自然對數(shù)是9.21。我們畫個(gè)散點(diǎn)圖,以從1到9999的工作時(shí)數(shù)為橫軸(自變量),以寫出完美博士論文的發(fā)生比的對數(shù)(從-9.21到9.21)為縱軸(因變量),我們會(huì)得到一條標(biāo)志這兩個(gè)變量之間關(guān)系的S型曲線。根據(jù)這個(gè)分析結(jié)果,我們可以預(yù)測,隨著博士生工作時(shí)間的增加,他會(huì)越來越接近完成一部完美的博士論文,但他永遠(yuǎn)達(dá)不到完美,這樣我們就避免了邏輯上荒謬的(不合邏輯的)預(yù)測。 為了更直觀地理解把概率轉(zhuǎn)換成發(fā)生比的自然對數(shù)有什么神效,我們以從0.0001到0.9999的概率為縱軸,以與這個(gè)區(qū)間的概率相對應(yīng)的發(fā)生比的自然對數(shù)為橫軸,做個(gè)散點(diǎn)分布圖,得到的是一條漂亮對稱的S型曲線,這就是統(tǒng)計(jì)學(xué)教材中說的“S型”曲線。 一句話,把概率轉(zhuǎn)換成發(fā)生比的自然對數(shù),可以幫我們避免邏輯荒謬。這個(gè)分析工具對于主要分析二分因變量的社會(huì)科學(xué)學(xué)者有救駕之功,所以我戲稱之為“曲線救國”。
|
|