時間序列ARIMA模型詳解：python實現(xiàn)店鋪一周銷售量預(yù)測

kieojk 2016-09-06

展開全文

顧名思義，時間序列是時間間隔不變的情況下收集的時間點集合。這些集合被分析用來了解長期發(fā)展趨勢，為了預(yù)測未來或者表現(xiàn)分析的其他形式。但是是什么令時間序列與常見的回歸問題的不同？

有兩個原因：

1、時間序列是跟時間有關(guān)的。所以基于線性回歸模型的假設(shè)：觀察結(jié)果是獨立的在這種情況下是不成立的。

2、隨著上升或者下降的趨勢，更多的時間序列出現(xiàn)季節(jié)性趨勢的形式，如：特定時間框架的具體變化。即：如果你看到羊毛夾克的銷售上升，你就一定會在冬季做更多銷售。

常用的時間序列模型有AR模型、MA模型、ARMA模型和ARIMA模型等。

一、時間序列的預(yù)處理

拿到一個觀察值序列之后，首先要對它的平穩(wěn)性和純隨機性進行檢驗，這兩個重要的檢驗稱為序列的預(yù)處理。根據(jù)檢驗的結(jié)果可以將序列分為不同的類型，對不同類型的序列我們會采用不同的分析方法。

先說下什么是平穩(wěn)，平穩(wěn)就是圍繞著一個常數(shù)上下波動且波動范圍有限，即有常數(shù)均值和常數(shù)方差。如果有明顯的趨勢或周期性，那它通常不是平穩(wěn)序列。序列平穩(wěn)不平穩(wěn)，一般采用三種方法檢驗：

（1）時序圖檢驗

看看上面這個圖，很明顯的增長趨勢，不平穩(wěn)。

（2）自相關(guān)系數(shù)和偏相關(guān)系數(shù)

還以上面的序列為例：用SPSS得到自相關(guān)和偏相關(guān)圖。

分析：左邊第一個為自相關(guān)圖（Autocorrelation），第二個偏相關(guān)圖(Partial Correlation)。

平穩(wěn)的序列的自相關(guān)圖和偏相關(guān)圖要么拖尾，要么是截尾。截尾就是在某階之后，系數(shù)都為 0 ，怎么理解呢，看上面偏相關(guān)的圖，當(dāng)階數(shù)為 1 的時候，系數(shù)值還是很大， 0.914. 二階長的時候突然就變成了 0.050. 后面的值都很小，認為是趨于 0 ，這種狀況就是截尾。什么是拖尾，拖尾就是有一個緩慢衰減的趨勢，但是不都為 0 。

自相關(guān)圖既不是拖尾也不是截尾。以上的圖的自相關(guān)是一個三角對稱的形式，這種趨勢是單調(diào)趨勢的典型圖形，說明這個序列不是平穩(wěn)序列。

（3）單位根檢驗

單位根檢驗是指檢驗序列中是否存在單位根，如果存在單位根就是非平穩(wěn)時間序列。

不平穩(wěn)，怎么辦？

答案是差分，轉(zhuǎn)換為平穩(wěn)序列。什么是差分？一階差分指原序列值相距一期的兩個序列值之間的減法運算；k階差分就是相距k期的兩個序列值之間相減。如果一個時間序列經(jīng)過差分運算后具有平穩(wěn)性，則該序列為差分平穩(wěn)序列，可以使用ARIMA模型進行分析。

還是上面那個序列，兩種方法都證明他是不靠譜的，不平穩(wěn)的。確定不平穩(wěn)后，依次進行1階、2階、3階...差分，直到平穩(wěn)為止。先來個一階差分，上圖:

從圖上看，一階差分的效果不錯，看著是平穩(wěn)的。

平穩(wěn)性檢驗過后，下一步是純隨機性檢驗。

對于純隨機序列，又稱白噪聲序列，序列的各項數(shù)值之間沒有任何相關(guān)關(guān)系，序列在進行完全無序的隨機波動，可以終止對該序列的分析。白噪聲序列是沒有信息可提取的平穩(wěn)序列。

對于平穩(wěn)非白噪聲序列，它的均值和方差是常數(shù)。通常是建立一個線性模型來擬合該序列的發(fā)展，借此提取該序列的有用信息。ARMA模型是最常用的平穩(wěn)序列擬合模型。

二、平穩(wěn)時間序列建模

某個時間序列經(jīng)過預(yù)處理，被判定為平穩(wěn)非白噪聲序列，就可以進行時間序列建模。

建模步驟：

（1）計算出該序列的自相關(guān)系數(shù)（ACF）和偏相關(guān)系數(shù)（PACF）；

（2）模型識別，也稱模型定階。根據(jù)系數(shù)情況從AR(p)模型、MA(q)模型、ARMA(p，q)模型、ARIMA（p，d，q）模型中選擇合適模型，其中p為自回歸項，d為差分階數(shù)，q為移動平均項數(shù)。

下面是平穩(wěn)序列的模型選擇：

自相關(guān)系數(shù)（ACF）	偏相關(guān)系數(shù)（PACF）	選擇模型
拖尾	p階截尾	AR(p)
q階截尾	拖尾	MA(q)
p階拖尾	q階拖尾	ARMA(p，q)

ARIMA 是 ARMA 算法的擴展版，用法類似。

（3）估計模型中的未知參數(shù)的值并對參數(shù)進行檢驗；

（4）模型檢驗；

（5）模型優(yōu)化；

（6）模型應(yīng)用：進行短期預(yù)測。

三、python實例操作

以下為某店鋪2015/1/1~2015/2/6的銷售數(shù)據(jù),以此建模預(yù)測2015/2/7~2015/2/11的銷售數(shù)據(jù)。

#-*- coding: utf-8 -*-
#arima時序模型

import pandas as pd

#參數(shù)初始化
discfile = 'E:/destop/text/arima_data.xls'
forecastnum = 5

#讀取數(shù)據(jù)，指定日期列為指標(biāo)，Pandas自動將“日期”列識別為Datetime格式
data = pd.read_excel(discfile, index_col = u'日期')

#時序圖
import matplotlib.pyplot as plt

#用來正常顯示中文標(biāo)簽

plt.rcParams['font.sans-serif'] = ['SimHei']

#用來正常顯示負號

plt.rcParams['axes.unicode_minus'] = False
data.plot()
plt.show()

#自相關(guān)圖
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(data).show()

#平穩(wěn)性檢測
from statsmodels.tsa.stattools import adfuller as ADF
print(u'原始序列的ADF檢驗結(jié)果為：', ADF(data[u'銷量']))

#返回值依次為adf、pvalue、usedlag、nobs、critical values、icbest、regresults、resstore

原始序列的單位根（adf）檢驗
adf	cValue			p值
	1%	5%	10%
1.81	-3.7112	-2.9812	-2.6301	0.9984

Pdf值大于三個水平值，p值顯著大于0.05，該序列為非平穩(wěn)序列。

#差分后的結(jié)果
D_data = data.diff().dropna()
D_data.columns = [u'銷量差分']

#時序圖

D_data.plot()
plt.show()

#自相關(guān)圖

plot_acf(D_data).show()

plt.show()

from statsmodels.graphics.tsaplots import plot_pacf

#偏自相關(guān)圖

plot_pacf(D_data).show()

#平穩(wěn)性檢測

print(u'差分序列的ADF檢驗結(jié)果為：', ADF(D_data[u'銷量差分']))

一階差分后序列的單位根（adf）檢驗
adf	cValue			p值
	1%	5%	10%
-3.15	-3.6327	-2.9485	-2.6130	0.0227

Pdf值小于兩個水平值，p值顯著小于0.05，一階差分后序列為平穩(wěn)序列。

#白噪聲檢驗
from statsmodels.stats.diagnostic import acorr_ljungbox

#返回統(tǒng)計量和p值

print(u'差分序列的白噪聲檢驗結(jié)果為：', acorr_ljungbox(D_data, lags=1))

一階差分后序列的白噪聲檢驗
stat	P值
11.304	0.007734

P值小于0.05，所以一階差分后的序列為平穩(wěn)非白噪聲序列。

from statsmodels.tsa.arima_model import ARIMA
#定階

#一般階數(shù)不超過length/10

pmax = int(len(D_data)/10)

#一般階數(shù)不超過length/10

qmax = int(len(D_data)/10)

#bic矩陣

bic_matrix = []
for p in range(pmax+1):
tmp = []
for q in range(qmax+1):

#存在部分報錯，所以用try來跳過報錯。

    try:
      tmp.append(ARIMA(data, (p,1,q)).fit().bic)
    except:
      tmp.append(None)
  bic_matrix.append(tmp)

#從中可以找出最小值

bic_matrix = pd.DataFrame(bic_matrix)

#先用stack展平，然后用idxmin找出最小值位置。

p,q = bic_matrix.stack().idxmin()

print(u'BIC最小的p值和q值為：%s、%s' %(p,q))

取BIC信息量達到最小的模型階數(shù)，結(jié)果p為0，q為1，定階完成。

#建立ARIMA(0, 1, 1)模型

model = ARIMA(data, (p,1,q)).fit()

#給出一份模型報告

model.summary2()

#作為期5天的預(yù)測，返回預(yù)測結(jié)果、標(biāo)準(zhǔn)誤差、置信區(qū)間。

model.forecast(5)

最終模型預(yù)測值如下:

2015/2/7	2015/2/8	2015/2/9	2015/2/10	2015/2/11
4874.0	4923.9	4973.9	5023.8	5073.8

利用模型向前預(yù)測的時間越長，預(yù)測的誤差將會越大，這是時間預(yù)測的典型特點。

參數(shù)檢驗如下：

	Coef.	Std.Err.	t	P值
const	49.956	20.139	2.4806	0.0182
ma.L1.D.銷量	0.671	0.1648	4.0712	0.0003

從檢驗結(jié)果p值來看，建立的模型效果良好。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： kieojk > 《數(shù)據(jù)挖掘》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

kieojk

關(guān)注對話

TA的最新館藏

[轉(zhuǎn)] 【論文解讀】UniLM:一種既能閱讀又能自動生成的預(yù)訓(xùn)練模型
鼻毛變白
減肥期老便秘，怎么辦？
選錯沙拉醬，小心越吃越胖！10 款好吃不易胖沙拉醬推薦
如何給孩子斷夜奶
中國嬰幼兒睡眠健康指南：優(yōu)質(zhì)睡眠建議“33”法則

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

時間序列ARIMA模型詳解：python實現(xiàn)店鋪一周銷售量預(yù)測

不平穩(wěn)，怎么辦？

不平穩(wěn)，怎么辦？