[機(jī)器學(xué)習(xí)]機(jī)器學(xué)習(xí)筆記整理12

highoo 2019-05-25

展開全文

前提介紹：

為什么需要統(tǒng)計(jì)量？

統(tǒng)計(jì)量：描述數(shù)據(jù)特征

1. 集中趨勢衡量

均值（平均數(shù)，平均值）（mean）1

這里寫圖片描述
{6, 2, 9, 1, 2}
(6 + 2 + 9 + 1 + 2) / 5 = 20 / 5 = 4

中位數(shù) （median）:

將數(shù)據(jù)中的各個(gè)數(shù)值按照大小順序排列，居于中間位置的變量
給數(shù)據(jù)排序：1， 2， 2， 6， 9
找出位置處于中間的變量：2
當(dāng)n為基數(shù)的時(shí)候：直接取位置處于中間的變量
當(dāng)n為偶數(shù)的時(shí)候，取中間兩個(gè)量的平均值

眾數(shù) （mode）：

數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)

離散程度衡量

方差（variance)

這里寫圖片描述
{6, 2, 9, 1, 2}
(1) (6 - 4)^2 + (2 - 4) ^2 + (9 - 4)^2 + (1 - 4)^2 + (2 - 4)^2
= 4 + 4 + 25 + 9 + 4
= 46
(2) n - 1 = 5 - 1 = 4
(3) 46 / 4 = 11.5

標(biāo)準(zhǔn)差 (standard deviation)

這里寫圖片描述

1. 介紹：回歸(regression) Y變量為連續(xù)數(shù)值型(continuous numerical variable)

                如：房價(jià)，人數(shù)，降雨量         分類(Classification): Y變量為類別型(categorical variable)                如：顏色類別，電腦品牌，有無信譽(yù)

2. 簡單線性回歸(Simple Linear Regression)

 2.1 很多做決定過過程通常是根據(jù)兩個(gè)或者多個(gè)變量之間的關(guān)系 2.3 回歸分析(regression analysis)用來建立方程模擬兩個(gè)或者多個(gè)變量之間如何關(guān)聯(lián) 2.4 被預(yù)測的變量叫做：因變量(dependent variable), y, 輸出(output) 2.5 被用來進(jìn)行預(yù)測的變量叫做： 自變量(independent variable), x, 輸入(input)1
2
3
4

3. 簡單線性回歸介紹

 3.1 簡單線性回歸包含一個(gè)自變量(x)和一個(gè)因變量(y) 3.2 以上兩個(gè)變量的關(guān)系用一條直線來模擬 3.3 如果包含兩個(gè)以上的自變量，則稱作多元回歸分析(multiple regression)

4. 簡單線性回歸模型

 4.1 被用來描述因變量(y)和自變量(X)以及偏差(error)之間關(guān)系的方程叫做回歸模型 4.2 簡單線性回歸的模型是: ![這里寫圖片描述](https://img-blog.csdn.net/20170411000552535?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvQmFpSHVhWGl1MTIz/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)1
2
3

5. 簡單線性回歸方程

                     E(y) = β0+β1x      這個(gè)方程對應(yīng)的圖像是一條直線，稱作回歸線     其中，β0是回歸線的截距              β1是回歸線的斜率                E(y)是在一個(gè)給定x值下y的期望值（均值）

6. 正向線性關(guān)系：

這里寫圖片描述

7. 負(fù)向線性關(guān)系：

這里寫圖片描述

8. 無關(guān)系

這里寫圖片描述

9. 估計(jì)的簡單線性回歸方程

      y?=b0+b1x 這個(gè)方程叫做估計(jì)線性方程(estimated regression line) 其中，b0是估計(jì)線性方程的縱截距           b1是估計(jì)線性方程的斜率           y?是在自變量x等于一個(gè)給定值的時(shí)候，y的估計(jì)值1
2
3
4
5

10. 線性回歸分析流程：

這里寫圖片描述

11. 關(guān)于偏差ε的假定

 11.1 是一個(gè)隨機(jī)的變量，均值為0 11.2 ε的方差(variance)對于所有的自變量x是一樣的 11.3 ε的值是獨(dú)立的 11.4 ε滿足正態(tài)分布

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： highoo > 《數(shù)據(jù)分析》

舉報(bào)/認(rèn)領(lǐng)