顧名思義,時間序列是時間間隔不變的情況下收集的時間點集合。這些集合被分析用來了解長期發(fā)展趨勢,為了預(yù)測未來或者表現(xiàn)分析的其他形式。但是是什么令時間序列與常見的回歸問題的不同? 有兩個原因: 1、時間序列是跟時間有關(guān)的。所以基于線性回歸模型的假設(shè):觀察結(jié)果是獨立的在這種情況下是不成立的。 2、隨著上升或者下降的趨勢,更多的時間序列出現(xiàn)季節(jié)性趨勢的形式,如:特定時間框架的具體變化。即:如果你看到羊毛夾克的銷售上升,你就一定會在冬季做更多銷售。 常用的時間序列模型有AR模型、MA模型、ARMA模型和ARIMA模型等。 一、時間序列的預(yù)處理 拿到一個觀察值序列之后,首先要對它的平穩(wěn)性和純隨機性進行檢驗,這兩個重要的檢驗稱為序列的預(yù)處理。根據(jù)檢驗的結(jié)果可以將序列分為不同的類型,對不同類型的序列我們會采用不同的分析方法。
先說下什么是平穩(wěn),平穩(wěn)就是圍繞著一個常數(shù)上下波動且波動范圍有限,即有常數(shù)均值和常數(shù)方差。如果有明顯的趨勢或周期性,那它通常不是平穩(wěn)序列。序列平穩(wěn)不平穩(wěn),一般采用三種方法檢驗: (1)時序圖檢驗
看看上面這個圖,很明顯的增長趨勢,不平穩(wěn)。
(2)自相關(guān)系數(shù)和偏相關(guān)系數(shù) 還以上面的序列為例:用SPSS得到自相關(guān)和偏相關(guān)圖。 分析:左邊第一個為自相關(guān)圖(Autocorrelation),第二個偏相關(guān)圖(Partial Correlation)。
平穩(wěn)的序列的自相關(guān)圖和偏相關(guān)圖要么拖尾,要么是截尾。截尾就是在某階之后,系數(shù)都為 0 ,怎么理解呢,看上面偏相關(guān)的圖,當(dāng)階數(shù)為 1 的時候,系數(shù)值還是很大, 0.914. 二階長的時候突然就變成了 0.050. 后面的值都很小,認為是趨于 0 ,這種狀況就是截尾。什么是拖尾,拖尾就是有一個緩慢衰減的趨勢,但是不都為 0 。
自相關(guān)圖既不是拖尾也不是截尾。以上的圖的自相關(guān)是一個三角對稱的形式,這種趨勢是單調(diào)趨勢的典型圖形,說明這個序列不是平穩(wěn)序列。
(3)單位根檢驗 單位根檢驗是指檢驗序列中是否存在單位根,如果存在單位根就是非平穩(wěn)時間序列。
不平穩(wěn),怎么辦?答案是差分,轉(zhuǎn)換為平穩(wěn)序列。什么是差分?一階差分指原序列值相距一期的兩個序列值之間的減法運算;k階差分就是相距k期的兩個序列值之間相減。如果一個時間序列經(jīng)過差分運算后具有平穩(wěn)性,則該序列為差分平穩(wěn)序列,可以使用ARIMA模型進行分析。
還是上面那個序列,兩種方法都證明他是不靠譜的,不平穩(wěn)的。確定不平穩(wěn)后,依次進行1階、2階、3階...差分,直到平穩(wěn)為止。先來個一階差分,上圖:
平穩(wěn)性檢驗過后,下一步是純隨機性檢驗。 對于純隨機序列,又稱白噪聲序列,序列的各項數(shù)值之間沒有任何相關(guān)關(guān)系,序列在進行完全無序的隨機波動,可以終止對該序列的分析。白噪聲序列是沒有信息可提取的平穩(wěn)序列。 對于平穩(wěn)非白噪聲序列,它的均值和方差是常數(shù)。通常是建立一個線性模型來擬合該序列的發(fā)展,借此提取該序列的有用信息。ARMA模型是最常用的平穩(wěn)序列擬合模型。 二、平穩(wěn)時間序列建模 某個時間序列經(jīng)過預(yù)處理,被判定為平穩(wěn)非白噪聲序列,就可以進行時間序列建模。
建模步驟: (1)計算出該序列的自相關(guān)系數(shù)(ACF)和偏相關(guān)系數(shù)(PACF); (2)模型識別,也稱模型定階。根據(jù)系數(shù)情況從AR(p)模型、MA(q)模型、ARMA(p,q)模型、ARIMA(p,d,q)模型中選擇合適模型,其中p為自回歸項,d為差分階數(shù),q為移動平均項數(shù)。
下面是平穩(wěn)序列的模型選擇:
ARIMA 是 ARMA 算法的擴展版,用法類似 。 (3)估計模型中的未知參數(shù)的值并對參數(shù)進行檢驗; (4)模型檢驗; (5)模型優(yōu)化; (6)模型應(yīng)用:進行短期預(yù)測。
三、python實例操作 以下為某店鋪2015/1/1~2015/2/6的銷售數(shù)據(jù),以此建模預(yù)測2015/2/7~2015/2/11的銷售數(shù)據(jù)。
#-*- coding: utf-8 -*- #用來正常顯示中文標(biāo)簽 plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#自相關(guān)圖
#平穩(wěn)性檢測
Pdf值大于三個水平值,p值顯著大于0.05,該序列為非平穩(wěn)序列。
#差分后的結(jié)果 #時序圖 D_data.plot()
#自相關(guān)圖 plot_acf(D_data).show() plt.show() from statsmodels.graphics.tsaplots import plot_pacf #偏自相關(guān)圖 plot_pacf(D_data).show() #平穩(wěn)性檢測 print(u'差分序列的ADF檢驗結(jié)果為:', ADF(D_data[u'銷量差分']))
Pdf值小于兩個水平值,p值顯著小于0.05,一階差分后序列為平穩(wěn)序列。
#返回統(tǒng)計量和p值 print(u'差分序列的白噪聲檢驗結(jié)果為:', acorr_ljungbox(D_data, lags=1))
P值小于0.05,所以一階差分后的序列為平穩(wěn)非白噪聲序列。
#一般階數(shù)不超過length/10 pmax = int(len(D_data)/10) #一般階數(shù)不超過length/10 qmax = int(len(D_data)/10) #bic矩陣 bic_matrix = [] #存在部分報錯,所以用try來跳過報錯。 try: bic_matrix = pd.DataFrame(bic_matrix) p,q = bic_matrix.stack().idxmin()
取BIC信息量達到最小的模型階數(shù),結(jié)果p為0,q為1,定階完成。 #建立ARIMA(0, 1, 1)模型 model = ARIMA(data, (p,1,q)).fit() #給出一份模型報告 model.summary2() #作為期5天的預(yù)測,返回預(yù)測結(jié)果、標(biāo)準(zhǔn)誤差、置信區(qū)間。 model.forecast(5) 最終模型預(yù)測值如下:
利用模型向前預(yù)測的時間越長,預(yù)測的誤差將會越大,這是時間預(yù)測的典型特點。
參數(shù)檢驗如下:
從檢驗結(jié)果p值來看,建立的模型效果良好。 |
|
來自: kieojk > 《數(shù)據(jù)挖掘》