R語言之?dāng)?shù)據(jù)分析高級方法「時間序列」

yjt2004us 2018-04-24

展開全文

?????????

作者簡介Introduction

姚某某

本節(jié)主要總結(jié)「數(shù)據(jù)分析」的「時間序列」相關(guān)模型的思路。

「時間序列」是一個變量在連續(xù)時點或連續(xù)時期上測量的觀測值的序列，它與我們以前見過的數(shù)據(jù)有本質(zhì)上的區(qū)別，這個區(qū)別在于之前的數(shù)據(jù)都在一個時間的橫截面上去測量、計算數(shù)據(jù)，而「時間序列」給出了一種時間軸線上縱向的視角，將時間作為自變量，測量出一系列縱向數(shù)據(jù)。

關(guān)于「時間序列」的預(yù)測模型，我所了解的常用模型有三種：1. 移動平均 2. 指數(shù)預(yù)測模型 3. ARIMA 預(yù)測模型

0. 時序的分解

要研究時序如何預(yù)測，首先需要將復(fù)雜的時序數(shù)據(jù)進行分解，將復(fù)雜的時序數(shù)據(jù)分解為單一的分解成分，這樣能利用統(tǒng)計方法進行擬合，然后個個擊破，最后再合成為我們需要預(yù)測的未來時序數(shù)據(jù)。

前人在這一問題上已經(jīng)得到很好的結(jié)論，通過對時序數(shù)據(jù)現(xiàn)實意義的理解，一般將時序數(shù)據(jù)分解為四個成分：

1. 水平項

2. 趨勢項

3. 季節(jié)效應(yīng)（衍生出去為周期項）

4. 隨機波動

水平項，即剔除時序數(shù)據(jù)的趨勢影響和季節(jié)影響后，時序數(shù)據(jù)所剩的成分，它代表著時序數(shù)據(jù)在時間軸上相對穩(wěn)定的一個基礎(chǔ)值。就像一個原點一樣，在這個原點上去考慮時間所帶來的趨勢影響和季節(jié)影響。
趨勢項，它用于捕捉時序數(shù)據(jù)的長期變化，是逐步增長還是逐步下降。就像在二元空間中的一個單調(diào)函數(shù)。
季節(jié)效應(yīng)，衍生出去就是周期型，在一定時間內(nèi)，時序數(shù)據(jù)所包含的周期型變化。就像在二元空間中的三角函數(shù)，如y=sinx，其數(shù)值是周而復(fù)始的。

通常在分解以上各個成分時，有兩種模式，一個是乘法模型，一個是加法模型。其中，加法模型的季節(jié)效應(yīng)被認(rèn)為不依賴于時間序列，二乘法模型認(rèn)為季節(jié)影響隨著時間會發(fā)生改變。不過兩種模型在計算時可以相通，對乘法模型作對數(shù)處理即可。

1. 移動平均

這一方法很簡單，只做簡單講解

所謂移動平均，就是使用時間序列中最接近的 k 期數(shù)據(jù)值的平均值作為下一個時期的預(yù)測值。

即：

較小的 k 值將更快速追蹤時間序列的移動，而較大的 k 值將隨著時間的推移更有效地消除隨機波動。

可延伸為加權(quán)移動平均，此法對每個數(shù)值選擇不同的的權(quán)重，然后計算最近 k 期數(shù)據(jù)值的加權(quán)平均數(shù)作為預(yù)測值。
如果僅用于平滑現(xiàn)有數(shù)據(jù)，也可以使用居中移動平均，即使用時序中前后最接近的各 q 期數(shù)據(jù)及自己的平均值作為在該時點上的平滑值。

即：

2. 指數(shù)預(yù)測模型

指數(shù)預(yù)測模型也是利用過去的時間序列值的加權(quán)平均數(shù)作為預(yù)測值，它是加權(quán)移動平均法的一個特例。

即：只選擇最近時期觀測值的權(quán)重，其他數(shù)據(jù)值的權(quán)重則自動推算，原則是時間距離越遠(yuǎn)權(quán)重越小。

2.1. 單指數(shù)平滑

單指數(shù)平滑，不考慮季節(jié)和趨勢分解，僅用過去數(shù)據(jù)值的加權(quán)平均數(shù)來預(yù)測。其思想為：

其中 F 為某時刻的預(yù)測值，Y 為某時刻的觀測值。以上公式從 t = 1 開始遞推，則每個時刻的預(yù)測值都包含著過去所有觀測值的成分，只是權(quán)重不同，令F1 = Y1 ，則：

α為平滑常數(shù)，越接近于 1 ，則近期觀測值的權(quán)重越大；反之，越接近于0，歷史觀測值權(quán)重越大。

2.2. Holt 指數(shù)平滑

Holt 指數(shù)平滑，在單指數(shù)平滑的基礎(chǔ)上，還對趨勢項進行了擬合。

由于考慮到了趨勢項，則預(yù)測值可表示為：

其中 Lt 為 t 時刻時序水平項的估計值，bt為 t 時刻時序斜率的估計值。

α為水平平滑常數(shù)， β為斜率平滑常數(shù)。

2.3. Holt-Winters 指數(shù)平滑

Holt-Winters 指數(shù)平滑，在 Holt 指數(shù)平滑的基礎(chǔ)上，還對季節(jié)項（周期項）進行了擬合，

由于還考慮到了季節(jié)項，則預(yù)測值表示為：

其中 i 為季節(jié)項的周期，mod 是求余，P 是某時刻時序周期的估計值。

α為水平平滑常數(shù)，β為斜率平滑常數(shù)，γ為周期平滑常數(shù)。

2.4. R 語言實現(xiàn)

以上三種指數(shù)平滑模型，采用 forecast 包中的 ets ( ) 函數(shù)即可：

ets(ts, model='zzz')
# ts 為需要分析的時序
# model 為模型選擇參數(shù)，具體分類如下
# 不指定 model 參數(shù)時，自動匹配最優(yōu)模型

3. ARIMA 預(yù)測模型

ARIMA 模型的相關(guān)資料我找到了，但是并沒有看完和看懂，相對來說其思想確實有些復(fù)雜。而且最近買了《統(tǒng)計學(xué)方法》和《機器學(xué)習(xí)》兩本書，發(fā)現(xiàn)自己的線性代數(shù)水平還很難看懂這些公式和算法推導(dǎo)，所以準(zhǔn)備把《 R 語言實戰(zhàn) 》敲完后轉(zhuǎn)入線性代數(shù)的復(fù)習(xí)，之后學(xué)習(xí)方向待定。

這里我就僅把利用 R 語言進行 ARIMA 模型模擬和預(yù)測的流程做以總結(jié)：

3.1. 確保時序是平穩(wěn)的

時序平穩(wěn)的要求一般有兩個：方差為均值、無趨勢項

方法是利用時序圖估判和 ndiffs ( ) 函數(shù)推薦最優(yōu)的差分次數(shù) d 。

3.2. 選擇模型

通過 ACF 和 PACF 圖來判斷 p 和 q 參數(shù)的值。

其中 ACF 為自相關(guān)函數(shù)圖用于判斷 q，PACF 為偏自相關(guān)圖用于判斷 p。

p 為自回歸模型（AR）參數(shù)，q 為移動平均模型（MA）參數(shù)。

3.3. 擬合模型

fit <- arima(ts,="" order="">
# ts 為原時序，order 中放入包含三個參數(shù)的向量
fit
# 一般要進行多組參數(shù)的嘗試，在輸出結(jié)果中利用 AIC 值來選擇最合理的模型，AIC 越小越好
accuracy(fit)
# 得到一系列誤差值，用于準(zhǔn)確性度量

3.4. 模型評價

模型的殘差應(yīng)該滿足獨立正態(tài)分布，根據(jù)這一條：

1. 使用正態(tài) Q-Q 圖來判斷其正態(tài)性

2. 使用box.test ( ) 函數(shù)對模型的殘差進行獨立性檢驗。

3.5. 預(yù)測