我們?cè)谥耙呀?jīng)講解了簡(jiǎn)單的機(jī)器學(xué)習(xí)中統(tǒng)計(jì)學(xué)習(xí)和假設(shè)檢驗(yàn)的概念。在本文中,我們將深入研究機(jī)器學(xué)習(xí)中的線性回歸模型。在我們深入研究之前,讓我們回顧一下統(tǒng)計(jì)學(xué)習(xí)的一些重要方面。 自變量和因變量: 在統(tǒng)計(jì)學(xué)習(xí)的背景下,有兩種類型的數(shù)據(jù):
無(wú)法控制的數(shù)據(jù),即因變量需要預(yù)測(cè)或估計(jì)。 模型: 模型是一種轉(zhuǎn)換引擎,可幫助我們將因變量表示為自變量的函數(shù)。 參數(shù): 參數(shù)是添加到模型中用于估計(jì)輸出的成分。 概念線性回歸模型為監(jiān)督學(xué)習(xí)提供了一種簡(jiǎn)單的方法。它們簡(jiǎn)單而有效。 線性表示因變量和自變量之間的關(guān)系可以用直線表示。 回想一下幾何課程中一條線的等式是什么? y = mx c 線性回歸只不過(guò)是這個(gè)簡(jiǎn)單方程的一種表現(xiàn)。
英國(guó)著名統(tǒng)計(jì)學(xué)家喬治·博克曾說(shuō)過(guò):
線性回歸模型并不完美。它試圖在直線上近似因變量和自變量之間的關(guān)系,近似會(huì)導(dǎo)致誤差,有些誤差可以減少,有些誤差是問(wèn)題的本質(zhì)所固有的,這些誤差無(wú)法消除。它們被稱為不可約的錯(cuò)誤,是真實(shí)關(guān)系中的噪聲項(xiàng),不能被任何模型從根本上減少。 同一直線方程可以改寫為: β0和β1是兩個(gè)未知常數(shù)代表截距和斜率。它們是參數(shù)。 ε是誤差項(xiàng)。 系統(tǒng)闡述 讓我們通過(guò)一個(gè)例子來(lái)解釋線性回歸模型的術(shù)語(yǔ)和工作原理。 費(fèi)爾南多是一名數(shù)據(jù)科學(xué)家,他想買一輛車,他想估計(jì)或預(yù)測(cè)他將要支付的汽車價(jià)格,他在一家汽車經(jīng)銷公司有一位朋友,他詢問(wèn)了其他各種汽車的價(jià)格以及汽車的一些特征,他的朋友向他提供了一些信息。 以下是提供給他的數(shù)據(jù):
首先,費(fèi)爾南多想要評(píng)估他是否能根據(jù)發(fā)動(dòng)機(jī)尺寸預(yù)測(cè)汽車價(jià)格。第一組分析尋求以下問(wèn)題的答案:
費(fèi)爾南多做了相關(guān)性分析。相關(guān)性是衡量?jī)蓚€(gè)變量相關(guān)程度的指標(biāo)。它通過(guò)稱為相關(guān)系數(shù)的度量來(lái)衡量。它的值介于0和1之間。 如果相關(guān)系數(shù)很大(> 0.7) ve,則意味著當(dāng)一個(gè)變量增加時(shí),另一個(gè)變量也會(huì)增加。一個(gè)大的-ve數(shù)表示當(dāng)一個(gè)變量增加時(shí),另一個(gè)變量減少。 他進(jìn)行了相關(guān)分析,他描繪了價(jià)格和發(fā)動(dòng)機(jī)尺寸之間的關(guān)系。 他將數(shù)據(jù)分成訓(xùn)練集和測(cè)試集,75%的數(shù)據(jù)用于訓(xùn)練,其他的用于測(cè)試。 他構(gòu)建了一個(gè)線性回歸模型,他使用統(tǒng)計(jì)軟件包來(lái)創(chuàng)建模型,該模型創(chuàng)建了一個(gè)線性方程,表示汽車價(jià)格與發(fā)動(dòng)機(jī)尺寸的關(guān)系。 以下是問(wèn)題的答案:
費(fèi)爾南多現(xiàn)在想建立一個(gè)線性回歸模型,該模型將根據(jù)發(fā)動(dòng)機(jī)尺寸估算汽車價(jià)格。將這個(gè)等式疊加到汽車價(jià)格問(wèn)題上,費(fèi)爾南多為價(jià)格預(yù)測(cè)制定了以下等式。 價(jià)格=β0 β1*發(fā)動(dòng)機(jī)尺寸 模型構(gòu)建與解釋模型 回想一下前面的討論,關(guān)于如何將數(shù)據(jù)分成訓(xùn)練集和測(cè)試集。訓(xùn)練數(shù)據(jù)用于了解數(shù)據(jù),訓(xùn)練數(shù)據(jù)用于創(chuàng)建模型,測(cè)試數(shù)據(jù)用于評(píng)估模型性能。 費(fèi)爾南多構(gòu)建了一個(gè)線性回歸模型,該模型產(chǎn)生一個(gè)線性方程,表示汽車價(jià)格與發(fā)動(dòng)機(jī)尺寸的函數(shù)關(guān)系。 他將數(shù)據(jù)分成75%的訓(xùn)練數(shù)據(jù)集和25%的測(cè)試數(shù)據(jù)集。 他構(gòu)建了一個(gè)線性回歸模型。他使用統(tǒng)計(jì)軟件包來(lái)創(chuàng)建模型。該模型創(chuàng)建了一個(gè)線性方程,表示汽車價(jià)格與發(fā)動(dòng)機(jī)尺寸的關(guān)系。 模型估計(jì)參數(shù):
線性方程估計(jì)如下: 價(jià)格= -6870.1 156.9 * 發(fā)動(dòng)機(jī)尺寸 解釋該模型為特定發(fā)動(dòng)機(jī)尺寸下的汽車平均價(jià)格預(yù)測(cè)提供了方程。該等式表示以下內(nèi)容: 發(fā)動(dòng)機(jī)尺寸每增加一個(gè)單位將使汽車的平均價(jià)格提高156.9個(gè)單位。 評(píng)估該模型已經(jīng)建成。需要評(píng)估模型的穩(wěn)健性。我們?cè)鯓硬拍艽_定這個(gè)模型能夠預(yù)測(cè)出令人滿意的價(jià)格?該評(píng)估分兩部分完成。首先,測(cè)試以建立模型的穩(wěn)健性。其次,測(cè)試評(píng)估模型的準(zhǔn)確性。 費(fèi)爾南多首先根據(jù)訓(xùn)練數(shù)據(jù)評(píng)估模型。他得到以下統(tǒng)計(jì)數(shù)據(jù)。 里面有很多統(tǒng)計(jì)數(shù)據(jù),讓我們專注于關(guān)鍵的(標(biāo)記為紅色方框)。回想一下關(guān)于假設(shè)檢驗(yàn)的討論,使用假設(shè)檢驗(yàn)評(píng)估模型的穩(wěn)健性。 需要定義H0和Ha,它們的定義如下:
β1:β1的值決定價(jià)格與發(fā)動(dòng)機(jī)尺寸之間的關(guān)系。如果β1=0則沒(méi)有關(guān)系。在這種情況下,β1是正的,這意味著價(jià)格和發(fā)動(dòng)機(jī)尺寸之間存在某種關(guān)系。 t-stat: t-stat的值是多少個(gè)標(biāo)準(zhǔn)差系數(shù)估計(jì)(β1)遠(yuǎn)離零。此外,價(jià)格和發(fā)動(dòng)機(jī)尺寸之間的關(guān)系遠(yuǎn)離零,在這種情況下,t-stat是21.09。他離零已經(jīng)足夠遠(yuǎn)了。 p-value: p-value是概率值。它表示在零假設(shè)為真的情況下看到給定t統(tǒng)計(jì)量的概率。如果p值很小,例如<0.0001,則意味著這是偶然的并且沒(méi)有關(guān)系的概率非常低。在這種情況下,p值很小,這意味著價(jià)格和發(fā)動(dòng)機(jī)之間的關(guān)系不是偶然的。 通過(guò)這些指標(biāo),我們可以拒絕零假設(shè)并接受備擇假設(shè)。 價(jià)格與發(fā)動(dòng)機(jī)尺寸之間存在穩(wěn)固的關(guān)系 建立了這種關(guān)系,準(zhǔn)確性怎么樣?模型的準(zhǔn)確度如何?為了了解模型的準(zhǔn)確性,一個(gè)名為R平方或決定系數(shù)的指標(biāo)非常重要。 R平方或決定系數(shù):要理解這些指標(biāo),讓我們將其分解為其組成部分。
我們來(lái)看一個(gè)例子。 在上面的示例中,RSS是基于三輛車的預(yù)測(cè)價(jià)格計(jì)算的。RSS值為41450201.63。實(shí)際價(jià)格的平均值是11,021。TSS計(jì)算為44,444,546。R平方計(jì)算為6.737%。對(duì)于這三個(gè)特定的數(shù)據(jù)點(diǎn),該模型只能解釋6.73%的變化。 然而,對(duì)于費(fèi)爾南多的模型,這是一個(gè)不同的故事。訓(xùn)練集的R平方為0.7503,即75.03%。這意味著該模型可以解釋更多75%的變化。 結(jié)論費(fèi)爾南多現(xiàn)在有一個(gè)很好的模型。它在訓(xùn)練數(shù)據(jù)上表現(xiàn)令人滿意。但是,有25%的數(shù)據(jù)無(wú)法解釋。還有改進(jìn)的余地。如何添加更多自變量來(lái)預(yù)測(cè)價(jià)格?當(dāng)添加多個(gè)自變量來(lái)預(yù)測(cè)因變量時(shí),會(huì)創(chuàng)建一個(gè)多變量回歸模型,即多個(gè)變量。后續(xù)我們會(huì)繼續(xù)進(jìn)行機(jī)器學(xué)習(xí)其他領(lǐng)域的講解。 |
|
來(lái)自: 東西二王 > 《數(shù)據(jù)分析》