日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

數(shù)據(jù)科學(xué)簡(jiǎn)化:簡(jiǎn)單線性回歸模型

 東西二王 2019-12-08

我們?cè)谥耙呀?jīng)講解了簡(jiǎn)單的機(jī)器學(xué)習(xí)中統(tǒng)計(jì)學(xué)習(xí)和假設(shè)檢驗(yàn)的概念。在本文中,我們將深入研究機(jī)器學(xué)習(xí)中的線性回歸模型。

在我們深入研究之前,讓我們回顧一下統(tǒng)計(jì)學(xué)習(xí)的一些重要方面。

自變量和因變量:

在統(tǒng)計(jì)學(xué)習(xí)的背景下,有兩種類型的數(shù)據(jù):

  • 自變量:可以直接控制的數(shù)據(jù)。
  • 因變量:無(wú)法直接控制的數(shù)據(jù)。

無(wú)法控制的數(shù)據(jù),即因變量需要預(yù)測(cè)或估計(jì)。

模型:

模型是一種轉(zhuǎn)換引擎,可幫助我們將因變量表示為自變量的函數(shù)。

參數(shù):

參數(shù)是添加到模型中用于估計(jì)輸出的成分。

概念

線性回歸模型為監(jiān)督學(xué)習(xí)提供了一種簡(jiǎn)單的方法。它們簡(jiǎn)單而有效。

線性表示因變量和自變量之間的關(guān)系可以用直線表示。

回想一下幾何課程中一條線的等式是什么?

y = mx c

線性回歸只不過(guò)是這個(gè)簡(jiǎn)單方程的一種表現(xiàn)。

  • y是因變量,即需要估計(jì)和預(yù)測(cè)的變量。
  • x是自變量,即可控的變量,這是輸入。
  • m是斜率,它決定了線的角度,參數(shù)表示為β。
  • c是截距,一個(gè)常數(shù),它決定了x = 0時(shí)y的值。

英國(guó)著名統(tǒng)計(jì)學(xué)家喬治·博克曾說(shuō)過(guò):

“All models are wrong;some are useful。“

線性回歸模型并不完美。它試圖在直線上近似因變量和自變量之間的關(guān)系,近似會(huì)導(dǎo)致誤差,有些誤差可以減少,有些誤差是問(wèn)題的本質(zhì)所固有的,這些誤差無(wú)法消除。它們被稱為不可約的錯(cuò)誤,是真實(shí)關(guān)系中的噪聲項(xiàng),不能被任何模型從根本上減少。

同一直線方程可以改寫為:

數(shù)據(jù)科學(xué)簡(jiǎn)化:簡(jiǎn)單線性回歸模型

β0和β1是兩個(gè)未知常數(shù)代表截距和斜率。它們是參數(shù)。

ε是誤差項(xiàng)。

系統(tǒng)闡述

讓我們通過(guò)一個(gè)例子來(lái)解釋線性回歸模型的術(shù)語(yǔ)和工作原理。

費(fèi)爾南多是一名數(shù)據(jù)科學(xué)家,他想買一輛車,他想估計(jì)或預(yù)測(cè)他將要支付的汽車價(jià)格,他在一家汽車經(jīng)銷公司有一位朋友,他詢問(wèn)了其他各種汽車的價(jià)格以及汽車的一些特征,他的朋友向他提供了一些信息。

數(shù)據(jù)科學(xué)簡(jiǎn)化:簡(jiǎn)單線性回歸模型

以下是提供給他的數(shù)據(jù):

  • make:汽車制造商。
  • fuelType:汽車使用的燃料類型。
  • nDoors:門的數(shù)量。
  • engineSize:汽車發(fā)動(dòng)機(jī)的尺寸( 雖然現(xiàn)代社會(huì)中的發(fā)動(dòng)機(jī)排量通常以升為單位測(cè)量,但較舊的發(fā)動(dòng)機(jī)主要使用立方英寸來(lái)描述發(fā)動(dòng)機(jī)尺寸 )。
  • price:汽車的價(jià)格。

首先,費(fèi)爾南多想要評(píng)估他是否能根據(jù)發(fā)動(dòng)機(jī)尺寸預(yù)測(cè)汽車價(jià)格。第一組分析尋求以下問(wèn)題的答案:

  • 汽車價(jià)格與發(fā)動(dòng)機(jī)尺寸有關(guān)嗎?
  • 關(guān)系有多強(qiáng)?
  • 這種關(guān)系是線性的嗎?
  • 我們可以根據(jù)發(fā)動(dòng)機(jī)尺寸預(yù)測(cè)/估算汽車價(jià)格嗎?

費(fèi)爾南多做了相關(guān)性分析。相關(guān)性是衡量?jī)蓚€(gè)變量相關(guān)程度的指標(biāo)。它通過(guò)稱為相關(guān)系數(shù)的度量來(lái)衡量。它的值介于0和1之間。

如果相關(guān)系數(shù)很大(> 0.7) ve,則意味著當(dāng)一個(gè)變量增加時(shí),另一個(gè)變量也會(huì)增加。一個(gè)大的-ve數(shù)表示當(dāng)一個(gè)變量增加時(shí),另一個(gè)變量減少。

他進(jìn)行了相關(guān)分析,他描繪了價(jià)格和發(fā)動(dòng)機(jī)尺寸之間的關(guān)系。

他將數(shù)據(jù)分成訓(xùn)練集和測(cè)試集,75%的數(shù)據(jù)用于訓(xùn)練,其他的用于測(cè)試。

他構(gòu)建了一個(gè)線性回歸模型,他使用統(tǒng)計(jì)軟件包來(lái)創(chuàng)建模型,該模型創(chuàng)建了一個(gè)線性方程,表示汽車價(jià)格發(fā)動(dòng)機(jī)尺寸的關(guān)系。

數(shù)據(jù)科學(xué)簡(jiǎn)化:簡(jiǎn)單線性回歸模型

以下是問(wèn)題的答案:

  • 汽車價(jià)格與發(fā)動(dòng)機(jī)尺寸有關(guān)嗎?
  • 是的,有關(guān)系。
  • 關(guān)系有多強(qiáng)?
  • 相關(guān)系數(shù)為0.872 =>有很強(qiáng)的關(guān)系。
  • 這種關(guān)系是線性的嗎?
  • 直線可以擬合=>可以使用發(fā)動(dòng)機(jī)尺寸進(jìn)行合適的價(jià)格預(yù)測(cè)。
  • 我們可以根據(jù)發(fā)動(dòng)機(jī)尺寸預(yù)測(cè)/估算汽車價(jià)格嗎?
  • 是的,可以根據(jù)發(fā)動(dòng)機(jī)尺寸估算汽車價(jià)格。

費(fèi)爾南多現(xiàn)在想建立一個(gè)線性回歸模型,該模型將根據(jù)發(fā)動(dòng)機(jī)尺寸估算汽車價(jià)格。將這個(gè)等式疊加到汽車價(jià)格問(wèn)題上,費(fèi)爾南多為價(jià)格預(yù)測(cè)制定了以下等式。

價(jià)格=β0 β1*發(fā)動(dòng)機(jī)尺寸

模型構(gòu)建與解釋

模型

回想一下前面的討論,關(guān)于如何將數(shù)據(jù)分成訓(xùn)練集測(cè)試集。訓(xùn)練數(shù)據(jù)用于了解數(shù)據(jù),訓(xùn)練數(shù)據(jù)用于創(chuàng)建模型,測(cè)試數(shù)據(jù)用于評(píng)估模型性能。

費(fèi)爾南多構(gòu)建了一個(gè)線性回歸模型,該模型產(chǎn)生一個(gè)線性方程,表示汽車價(jià)格發(fā)動(dòng)機(jī)尺寸的函數(shù)關(guān)系

數(shù)據(jù)科學(xué)簡(jiǎn)化:簡(jiǎn)單線性回歸模型

他將數(shù)據(jù)分成75%的訓(xùn)練數(shù)據(jù)集和25%的測(cè)試數(shù)據(jù)集。

他構(gòu)建了一個(gè)線性回歸模型。他使用統(tǒng)計(jì)軟件包來(lái)創(chuàng)建模型。該模型創(chuàng)建了一個(gè)線性方程,表示汽車價(jià)格發(fā)動(dòng)機(jī)尺寸的關(guān)系。

數(shù)據(jù)科學(xué)簡(jiǎn)化:簡(jiǎn)單線性回歸模型

模型估計(jì)參數(shù):

  • β0估計(jì)為-6870.1
  • β1估計(jì)為156.9

線性方程估計(jì)如下:

價(jià)格= -6870.1 156.9 * 發(fā)動(dòng)機(jī)尺寸

解釋

數(shù)據(jù)科學(xué)簡(jiǎn)化:簡(jiǎn)單線性回歸模型

該模型為特定發(fā)動(dòng)機(jī)尺寸下的汽車平均價(jià)格預(yù)測(cè)提供了方程。該等式表示以下內(nèi)容:

發(fā)動(dòng)機(jī)尺寸每增加一個(gè)單位將使汽車的平均價(jià)格提高156.9個(gè)單位。

評(píng)估

該模型已經(jīng)建成。需要評(píng)估模型的穩(wěn)健性。我們?cè)鯓硬拍艽_定這個(gè)模型能夠預(yù)測(cè)出令人滿意的價(jià)格?該評(píng)估分兩部分完成。首先,測(cè)試以建立模型的穩(wěn)健性。其次,測(cè)試評(píng)估模型的準(zhǔn)確性。

費(fèi)爾南多首先根據(jù)訓(xùn)練數(shù)據(jù)評(píng)估模型。他得到以下統(tǒng)計(jì)數(shù)據(jù)。

數(shù)據(jù)科學(xué)簡(jiǎn)化:簡(jiǎn)單線性回歸模型

里面有很多統(tǒng)計(jì)數(shù)據(jù),讓我們專注于關(guān)鍵的(標(biāo)記為紅色方框)。回想一下關(guān)于假設(shè)檢驗(yàn)的討論,使用假設(shè)檢驗(yàn)評(píng)估模型的穩(wěn)健性。

需要定義H0和Ha,它們的定義如下:

  • H0(零假設(shè)):x和y之間沒(méi)有關(guān)系,即價(jià)格和發(fā)動(dòng)機(jī)尺寸之間沒(méi)有關(guān)系。
  • Ha(備擇假設(shè)):x和y之間存在某種關(guān)系,即價(jià)格和發(fā)動(dòng)機(jī)尺寸之間存在關(guān)系。

β1:β1的值決定價(jià)格與發(fā)動(dòng)機(jī)尺寸之間的關(guān)系。如果β1=0則沒(méi)有關(guān)系。在這種情況下,β1是正的,這意味著價(jià)格和發(fā)動(dòng)機(jī)尺寸之間存在某種關(guān)系。

t-stat: t-stat的值是多少個(gè)標(biāo)準(zhǔn)差系數(shù)估計(jì)(β1)遠(yuǎn)離零。此外,價(jià)格和發(fā)動(dòng)機(jī)尺寸之間的關(guān)系遠(yuǎn)離零,在這種情況下,t-stat是21.09。他離零已經(jīng)足夠遠(yuǎn)了。

p-value: p-value是概率值。它表示在零假設(shè)為真的情況下看到給定t統(tǒng)計(jì)量的概率。如果p值很小,例如<0.0001,則意味著這是偶然的并且沒(méi)有關(guān)系的概率非常低。在這種情況下,p值很小,這意味著價(jià)格和發(fā)動(dòng)機(jī)之間的關(guān)系不是偶然的。

通過(guò)這些指標(biāo),我們可以拒絕零假設(shè)并接受備擇假設(shè)。 價(jià)格與發(fā)動(dòng)機(jī)尺寸之間存在穩(wěn)固的關(guān)系

建立了這種關(guān)系,準(zhǔn)確性怎么樣?模型的準(zhǔn)確度如何?為了了解模型準(zhǔn)確性,一個(gè)名為R平方或決定系數(shù)的指標(biāo)非常重要。

R平方或決定系數(shù):要理解這些指標(biāo),讓我們將其分解為其組成部分。

數(shù)據(jù)科學(xué)簡(jiǎn)化:簡(jiǎn)單線性回歸模型

  • 誤差(e)是實(shí)際y和預(yù)測(cè)y之間的差。預(yù)測(cè)的y表示為?。針對(duì)每個(gè)觀測(cè)值評(píng)估該誤差。這些誤差也稱為殘差。
  • 然后將所有殘差值平方并相加。該術(shù)語(yǔ)稱為殘差平方和(RSS)。RSS越低越好。
  • 這是R2方程的另一部分,為了獲得另一部分,首先,計(jì)算實(shí)際目標(biāo)的平均值,即估計(jì)汽車價(jià)格的平均值。然后計(jì)算平均值和實(shí)際值之間的差異。然后平方并添加這些差異。它是總平方和(TSS)。
  • R平方的確定系數(shù)計(jì)算為1- RSS/TSS。這個(gè)度量標(biāo)準(zhǔn)解釋了模型預(yù)測(cè)的值與實(shí)際平均值之間的方差百分比,而不是實(shí)際的平均值。這個(gè)值介于0和1之間。值越高,模型可以越好地解釋方差。

我們來(lái)看一個(gè)例子。

數(shù)據(jù)科學(xué)簡(jiǎn)化:簡(jiǎn)單線性回歸模型

在上面的示例中,RSS是基于三輛車的預(yù)測(cè)價(jià)格計(jì)算的。RSS值為41450201.63。實(shí)際價(jià)格的平均值是11,021。TSS計(jì)算為44,444,546。R平方計(jì)算為6.737%。對(duì)于這三個(gè)特定的數(shù)據(jù)點(diǎn),該模型只能解釋6.73%的變化。

然而,對(duì)于費(fèi)爾南多的模型,這是一個(gè)不同的故事。訓(xùn)練集的R平方為0.7503,即75.03%。這意味著該模型可以解釋更多75%的變化。

結(jié)論

費(fèi)爾南多現(xiàn)在有一個(gè)很好的模型。它在訓(xùn)練數(shù)據(jù)上表現(xiàn)令人滿意。但是,有25%的數(shù)據(jù)無(wú)法解釋。還有改進(jìn)的余地。如何添加更多自變量來(lái)預(yù)測(cè)價(jià)格?當(dāng)添加多個(gè)自變量來(lái)預(yù)測(cè)因變量時(shí),會(huì)創(chuàng)建一個(gè)多變量回歸模型,即多個(gè)變量。后續(xù)我們會(huì)繼續(xù)進(jìn)行機(jī)器學(xué)習(xí)其他領(lǐng)域的講解。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多