日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

復(fù)雜的世界,人工智能將如何描述事物的關(guān)系

 timtxu 2019-08-27

描述變量關(guān)系

現(xiàn)實(shí)世界中很多問(wèn)題的模型都可以通過(guò)若干個(gè)變量來(lái)描述,并且這些變量組成的方程式中因變量和自變量都為連續(xù)變量,這類問(wèn)題在機(jī)器學(xué)習(xí)領(lǐng)域被稱為回歸問(wèn)題。所以可以說(shuō)回歸就是用方程來(lái)描述若干變量之間的因果關(guān)系,是對(duì)客觀數(shù)據(jù)的近似描述的一種思想,方程的參數(shù)由某些最優(yōu)化策略來(lái)確定。也就是說(shuō),因變量的推導(dǎo)由若干自變量共同來(lái)決定,而每個(gè)自變量都有各自的影響權(quán)重(系數(shù)),這些權(quán)重則由指定的優(yōu)化策略來(lái)確定。

假設(shè)某事物及其相關(guān)因子具有某種關(guān)系,回歸的目的就是嘗試使用某方程Y=F(x1,x2,…,xn)來(lái)表示該事物,一旦我們擁有了該方程則意味著我們擁有了預(yù)測(cè)的能力。

復(fù)雜的世界,人工智能將如何描述事物的關(guān)系

線性回歸

舉個(gè)例子

為了更好地理解回歸問(wèn)題,我們現(xiàn)在舉一個(gè)通過(guò)回歸來(lái)預(yù)測(cè)收入的例子。假設(shè)想要建立一個(gè)模型來(lái)預(yù)測(cè)某個(gè)人的收入,首先我們分析影響個(gè)人收入的因素,然后嘗試定義一個(gè)方程來(lái)描述收入多少與影響因素之間的關(guān)系。這里僅僅以受教育時(shí)長(zhǎng)作為因素,則可以將收入方程定義為 y=β0+β1*x1,其中y為收入,x1是受教育年數(shù),β0和β1為系數(shù)。

如果我們能確定兩個(gè)系數(shù)的值,那么整個(gè)方程就確定了。比如β0為3000、β1為1000,則方程為y=3000+1000*x1,β0可以認(rèn)為是沒有受過(guò)任何教育的人的基本收入為3000,而β1則表示一年教育能讓收入增多1000。我們認(rèn)為輸入和輸出都是連續(xù)變量,屬于回歸問(wèn)題,雖然實(shí)際上很少有說(shuō)受教育1.35年的,但這個(gè)問(wèn)題的核心還是尋找回歸那條直線方程。

復(fù)雜的世界,人工智能將如何描述事物的關(guān)系

回歸例子

回歸的原理

回歸的原理是什么?或者說(shuō)回歸是如何生效呢?回歸的核心就是確定好方程的形式并且找到適合的方程系數(shù)來(lái)描述事物,假如方程的形式已經(jīng)確定,那么剩下的工作就是確定方程的系數(shù)。實(shí)際上,對(duì)于絕大多數(shù)問(wèn)題我們都無(wú)法直接通過(guò)經(jīng)驗(yàn)來(lái)設(shè)置方程的系數(shù),人類并沒辦法開啟上帝視角。那么有沒有其他辦法呢?答案就是通過(guò)收集數(shù)據(jù)樣本來(lái)確定系數(shù),通過(guò)客觀事實(shí)數(shù)據(jù)加以統(tǒng)計(jì)處理來(lái)確定系數(shù)。

比如下圖,收集到6個(gè)數(shù)據(jù)樣本,實(shí)際情況會(huì)需要更多數(shù)據(jù)樣本,數(shù)據(jù)樣本需要覆蓋現(xiàn)實(shí)客觀情況,且符合實(shí)際分布。根據(jù)這些數(shù)據(jù)樣本我們希望確定方程的系數(shù),并且這個(gè)方程最能代表客觀情況。核心策略就是讓該方程的總誤差最小,εi表示第i個(gè)點(diǎn)的誤差,所有點(diǎn)的誤差之和即為總誤差。

復(fù)雜的世界,人工智能將如何描述事物的關(guān)系

方程誤差

線性回歸

線性回歸是最經(jīng)典的回歸模型,這是一個(gè)簡(jiǎn)約又強(qiáng)大的模型。說(shuō)它簡(jiǎn)約是因?yàn)槲覀兛梢酝ㄟ^(guò)二維平面的一元線性方程來(lái)了解線性回歸的基本思想,而說(shuō)它強(qiáng)大則是因?yàn)橥ㄟ^(guò)多元線性方程能夠?qū)崿F(xiàn)非線性模型。一元線性方程即是自變量X到因變量Y的映射,多元線性方程則是兩個(gè)以上自變量到因變量的映射,比如X1、X2、X3、X4、X5到Y(jié)的映射。

復(fù)雜的世界,人工智能將如何描述事物的關(guān)系

一元/多元線性回歸

我們經(jīng)常會(huì)以三維空間的視角誤將線性回歸與直線對(duì)等起來(lái),其實(shí)線性回歸并不僅僅包括二維平面的直線方程,在多元線性方程中將對(duì)應(yīng)著n維空間的超平面。我們以二元線性方程為例,此時(shí)的方程剛好對(duì)應(yīng)三維空間的一個(gè)超平面。

復(fù)雜的世界,人工智能將如何描述事物的關(guān)系

多元線性超平面

此外,在線性回歸中經(jīng)常使用均方誤差(MSE)作為誤差的描述,即真實(shí)數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)對(duì)應(yīng)點(diǎn)誤差的平方和的均值,MSE = 1/n Σ?(? - (?))2 。下圖中綠色的點(diǎn)為真實(shí)數(shù)據(jù)點(diǎn),紅色的點(diǎn)為預(yù)測(cè)數(shù)據(jù),直線為回歸方程,虛線為殘差(真實(shí)值與預(yù)測(cè)值之差)。六個(gè)點(diǎn)的殘差的平方之和再除以6,得到的就是均方誤差。線性回歸中最常用的優(yōu)化方法為最小二乘法,它的核心思想就是最小化均方誤差。

復(fù)雜的世界,人工智能將如何描述事物的關(guān)系

數(shù)據(jù)誤差

欠擬合與過(guò)擬合

當(dāng)我們使用回歸來(lái)對(duì)事物建模時(shí),可能會(huì)遇到欠擬合與過(guò)擬合現(xiàn)象。欠擬合是指模型不能很好地捕捉到數(shù)據(jù)樣本的特征,導(dǎo)致線性方程無(wú)法很好地?cái)M合數(shù)據(jù)。而過(guò)擬合則是模型將數(shù)據(jù)樣本學(xué)習(xí)得太徹底了,以至于將噪聲數(shù)據(jù)的特征也學(xué)習(xí)到了,這將會(huì)導(dǎo)致對(duì)未知數(shù)據(jù)預(yù)測(cè)時(shí)效果很差。

左上圖中使用y = θ?+θ?x 來(lái)擬合數(shù)據(jù),無(wú)法捕捉數(shù)據(jù)的特征,可以通過(guò)增加特征或模型的復(fù)雜性來(lái)解決這個(gè)問(wèn)題。右上圖將模型變?yōu)閥 = θ?+θ?x+θ?x2,此時(shí)則能很好地?cái)M合數(shù)據(jù)樣本,這個(gè)模型就已經(jīng)非常好了。如果我們?cè)倮^續(xù)增加模型的復(fù)雜度的話,情況則可能變?yōu)橄聢D所示,此時(shí)變成了過(guò)擬合。過(guò)擬合的原因主要有三個(gè):數(shù)據(jù)樣本包含了噪聲、樣本數(shù)太少以及模型太復(fù)雜。

復(fù)雜的世界,人工智能將如何描述事物的關(guān)系

欠擬合與過(guò)擬合

總結(jié)

本節(jié)主要介紹了人工智能對(duì)連續(xù)變量預(yù)測(cè)的建模方法,現(xiàn)實(shí)世界中關(guān)于量的預(yù)測(cè)需要通過(guò)回歸來(lái)建模。也就是說(shuō)在機(jī)器學(xué)習(xí)中,當(dāng)我們要實(shí)現(xiàn)的功能是預(yù)測(cè)是否為某個(gè)類別時(shí)使用分類方法,而當(dāng)我們要實(shí)現(xiàn)的功能是預(yù)測(cè)某個(gè)事物量的大小時(shí)則要使用回歸方法。我們也探討了回歸的原理,并介紹了最經(jīng)典且強(qiáng)大的線性回歸方法,以及回歸中可能遇到的欠擬合與過(guò)擬合現(xiàn)象。當(dāng)我們了解了回歸及其原理后,我們就能夠在更高層面上理解人工智能實(shí)現(xiàn)預(yù)測(cè)的原理。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多