日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

使用eviews做線性回歸分析

 雙元管理 2010-03-22
Glossary:
ls(least squares)最小二乘法
R-sequared樣本決定系數(shù)(R2):值為0-1,越接近1表示擬合越好,>0.8認(rèn)為可以接受,但是R2隨因變量的增多而增大,解決這個問題使用來調(diào)整
Adjust R-seqaured()
S.E of regression回歸標(biāo)準(zhǔn)誤差
Log likelihood對數(shù)似然比:殘差越小,L值越大,越大說明模型越正確
Durbin-Watson stat:DW統(tǒng)計量,0-4之間
Mean dependent var因變量的均值
S.D. dependent var因變量的標(biāo)準(zhǔn)差
Akaike info criterion赤池信息量(AIC)(越小說明模型越精確)
Schwarz ctiterion:施瓦茲信息量(SC)(越小說明模型越精確)
Prob(F-statistic)相伴概率
fitted(擬合值)

線性回歸的基本假設(shè):
1.自變量之間不相關(guān)
2.隨機誤差相互獨立,且服從期望為0,標(biāo)準(zhǔn)差為σ的正態(tài)分布
3.樣本個數(shù)多于參數(shù)個數(shù)

建模方法:
ls y c x1 x2 x3 ...
x1 x2 x3的選擇先做各序列之間的簡單相關(guān)系數(shù)計算,選擇同因變量相關(guān)系數(shù)大而自變量相關(guān)系數(shù)小的一些變量。模型的實際業(yè)務(wù)含義也有指導(dǎo)意義,比如m1同gdp肯定是相關(guān)的。
模型的建立是簡單的,復(fù)雜的是模型的檢驗、評價和之后的調(diào)整、擇優(yōu)。

模型檢驗:
1)方程顯著性檢驗(F檢驗):模型擬合樣本的效果,即選擇的所有自變量對因變量的解釋力度

F大于臨界值則說明拒絕0假設(shè)。
Eviews給出了拒絕0假設(shè)(所有系統(tǒng)為0的假設(shè))犯錯誤(第一類錯誤或α錯誤)的概率(收尾概率或相伴概率)p值,若p小于置信度(如0.05)則可以拒絕0假設(shè),即認(rèn)為方程顯著性明顯。

2)回歸系數(shù)顯著性檢驗(t檢驗):檢驗每一個自變量的合理性
|t|大于臨界值表示可拒絕系數(shù)為0的假設(shè),即系數(shù)合理。t分布的自由度為n-p-1,n為樣本數(shù),p為系數(shù)位置

3)DW檢驗:檢驗殘差序列的自相關(guān)性,檢驗基本假設(shè)2(隨機誤差相互獨立)
殘差:模型計算值與資料實測值之差為殘差
0<=dw<=dl 殘差序列正相關(guān),du<dw<4-du 無自相關(guān), 4-dl<dw<=4負(fù)相關(guān) ,若不在以上3個區(qū)間則檢驗失敗,無法判斷
demo中的dw=0.141430 ,dl=1.73369,du=1.7786,所以存在正相關(guān)

模型評價
目的:不同模型中擇優(yōu)
1)樣本決定系數(shù)R-squared及修正的R-squared
R-squared=SSR/SST 表示總離差平方和中由回歸方程可以解釋部分的比例,比例越大說明回歸方程可以解釋的部分越多。
Adjust R-seqaured=1-(n-1)/(n-k)(1-R2)
2)對數(shù)似然值(Log Likelihood,簡記為L)
殘差越小,L越大
3)AIC準(zhǔn)則
AIC= -2L/n+2k/n, 其中L為 log likelihood,n為樣本總量,k為參數(shù)個數(shù)。
AIC可認(rèn)為是反向修正的L,AIC越小說明模型越精確。
4)SC準(zhǔn)則
SC= -2L/n + k*ln(n)/n
用法同AIC非常接近


預(yù)測forecast
root mean sequared error(RMSE)均方根誤差
Mean Absolute Error(MAE)平均絕對誤差
這兩個變量取決于因變量的絕對值,
MAPE(Mean Abs. Percent Error)平均絕對百分誤差,一般的認(rèn)為MAPE<10則認(rèn)為預(yù)測精度較高
Theil Inequality Coefficient(希爾不等系數(shù))值為0-1,越小表示擬合值和真實值差異越小。
偏差率(bias Proportion),bp,反映預(yù)測值和真實值均值間的差異
方差率(variance Proportion),vp,反映預(yù)測值和真實值標(biāo)準(zhǔn)差的差異
協(xié)變率(covariance Proportion),cp,反映了剩余的誤差
以上三項相加等于1。
預(yù)測比較理想是bp,vp比較小,值集中在cp上。

eviews不能直接計算出預(yù)測值的置信區(qū)間,需要通過置信區(qū)間的上下限公式來計算。如何操作?

其他
1)Chow檢驗
chow's breakpoint檢驗
零假設(shè)是:兩個子樣本擬合的方程無顯著差異。有差異則說明關(guān)系中結(jié)構(gòu)發(fā)生改變
demo中
Chow Breakpoint Test: 1977Q1                                
                               
F-statistic        2.95511837136742            Prob. F(3,174)                0.0339915698953355
Log likelihood ratio        8.94507926849178            Prob. Chi-Square(3)                0.0300300700620291
                               
p值<0.05,可拒絕0假設(shè),即認(rèn)為各個因素的影響強弱發(fā)生了改變。
問題是如何才能準(zhǔn)確的找到這個或這幾個斷點?目前的方法是找殘差擴大超出邊線的那個點,但這是不準(zhǔn)確的,在demo中1975Q2的殘差超出,但是chow's breakpoint檢驗的兩個p值都接近0.2,1976Q3開始兩個p值才小于0.05,并且有逐漸減小之勢。
chow's forecast檢驗
用斷點隔斷樣本,用之前的樣本建立回歸模型,然后用這個模型對后一段進(jìn)行預(yù)測,檢驗這個模型對后續(xù)樣本的擬合程度。
0假設(shè)是:模型與后段樣本無顯著差異
demo中的1976Q4作為break point,得到兩個p值為0,即認(rèn)為兩段樣本的系數(shù)應(yīng)該是不同的。
2)自變量的選擇
testadd檢驗:
操作方法是: eqation name.testadd ser1 ser2 ...
0假設(shè):應(yīng)該將該變量引入方程
檢驗統(tǒng)計量:wald,LR
結(jié)果:通過兩個p值(Prob. F,Prob Chi-sequare)看是否拒絕原假設(shè)
testdrop檢驗:
操作方法是: eqation name.testdrop ser1 ser2 ...
0假設(shè):應(yīng)該將該變量剔除
檢驗統(tǒng)計量:wald,LR
結(jié)果:通過兩個p值(Prob. F,Prob Chi-sequare)看是否拒絕原假設(shè)

含定性變量的回歸模型
分為:自變量含定性變量,因變量含定性變量。后一種情況較為復(fù)雜
建立dummy 變量(名義變量):用D表示
當(dāng)變量有m種情況時,需要引入m-1個dummy變量
處理辦法:把定性變量定義成0.1.2等數(shù)值后和一般變量同樣處理

常見問題及對策
1)多重共線性(multicollinearity):
p個回歸變量之間存在嚴(yán)格或近似的線性關(guān)系
診斷方法:
1.如果模型的R-sequared很大,F(xiàn)檢驗通過,但是某些系統(tǒng)的t檢驗沒通過
2.某些自變量系數(shù)之間的簡單相關(guān)系數(shù)很大
3.回歸系數(shù)符號與簡單相關(guān)系統(tǒng)符號相反
以上3條發(fā)生都有理由懷疑存在多重共線性
方差擴大因子(variance inflation factor VIFj)是診斷多重共線性的常用手段。
VIFj為矩陣(X’ X)-1第j個對角元素cjj=1/(1-R2j)(j=1,2…,p)
其中R2j為以作為cj因變量,其余p-1個自變量作為自變量建立多元回歸模型所得的樣本決定系數(shù),所以R2j越大則說明自變量之間自相關(guān)性越大,此時也越大,可以認(rèn)為VIFj>10(R2j>0.9)則存在多重共線性。
還可以使用VIFj的平均數(shù)作為判斷標(biāo)準(zhǔn),如果avg(VIFj)遠(yuǎn)大于10則認(rèn)為存在多重共線性。
eviews里如何使用VIF法?--建立方程,然后手工建立scalar vif。demo中GDP和PR的vif為66,存在多重共線性? 只有一個自變量的方程是否會失效?此時dw值只有0.01遠(yuǎn)小于dl,說明GDP遠(yuǎn)遠(yuǎn)不是PR能決定的。結(jié)合testdrop將PR去除,兩個p值為0,說明不能把PR去除。
在eviews中當(dāng)自變量存在嚴(yán)重的多重共線性時將不能給出參數(shù)估計值,而會報錯:nearly singular matrix

多重共線性的處理:
1.剔除自變量,選擇通過testdrop實驗,并且vif值最大的那個
2.差分法,在建立方程時填入 ls m1-m1(-1) c gdp-gdp(-1) pr-pr(-1)。m1(-1)表示上一個m1
   差分法常常會丟失一些信息,使用時應(yīng)謹(jǐn)慎。 demo中得到的模型,c 的p值0.11, pr-pr(-1)的p值為0.60,說明參數(shù)無效。

2)異方差性(Herteroskedasticity)
即隨機誤差項不滿足基本假設(shè)的同方差性,異方差性說明隨機誤差中有些項對因變量的影響是不同于其他項的。
一般地,截面數(shù)據(jù)做樣本時出現(xiàn)異方差性的可能較大,或者說都存在異方差性
若存在異方差性,用OLS估計出來的參數(shù),可能導(dǎo)致估計值雖然是無偏的,但不是有效的。
(截面數(shù)據(jù)就是同一時間點上各個主體的數(shù)據(jù),比如2007年各省的GDP數(shù)據(jù)放在一起就是一組截面數(shù)據(jù)
與之相對的是時間序列數(shù)據(jù) 如河北省從00年到07年的數(shù)據(jù)就是一組時間序列數(shù)據(jù)
兩者綜合叫面板數(shù)據(jù) )
00年到07年各省的數(shù)據(jù)綜合在一起就叫面板數(shù)據(jù)
診斷方法:
1.圖示法,以因變量作為橫坐標(biāo),以殘差項為縱坐標(biāo),根據(jù)散點圖判斷是否存在相關(guān)性。
(選擇兩個序列作為group打開,先選中的序列將作為group的縱坐標(biāo))
2.戈里瑟(Glejser)檢驗:
 
3.懷特(White)檢驗:
用e2作為因變量,原先的自變量及自變量的平方(還可以加上各自變量之間的相互乘積)作為自變量 建立模型。
懷特檢驗的統(tǒng)計量為:m=n*R2(n是樣本容量,R2是新模型的擬合優(yōu)度), m~ χ2(k) k為新模型除常數(shù)項之外的自變量個數(shù)
零假設(shè):模型不存在異方差性
操作:在估計出來的方程中,view-residual tests-White Herteroskedasticity(no cross/cross) 分別為是否含自變量交叉項
demo中的兩個p值為0,所以拒絕零假設(shè),認(rèn)為存在嚴(yán)重的異方差性。

異方差性的處理:
1.加權(quán)最小二乘法(WLS weighted least sequare)。
最常用的方法,一般用于異方差形式可知的情況?;舅悸肥琴x予殘差的每個觀測值不同的權(quán)數(shù),從而使模型的隨機誤差項具有相同的方差。
2.自相關(guān)相容協(xié)方差(Heteroskedasticity and antocorrelation consistent convariances HAC)
用于異方差性形式未知時。在建模時在options中選擇Heteroskedasticity consistent convariances 再從white,newey-west中選擇一種。
HAC不改變參數(shù)的點估計,改變的知識估計標(biāo)準(zhǔn)差。如何改變標(biāo)準(zhǔn)差?

3)自相關(guān)性
殘差項不滿足相互獨立的假設(shè)。一般的,經(jīng)濟時間序列中自相關(guān)現(xiàn)象較為常見,這主要是經(jīng)濟變量的滯后性帶來的。
自相關(guān)性將導(dǎo)致參數(shù)估計值雖然是無偏的,但不是有效的。
診斷方法:
1.繪制殘差序列圖。如果序列圖成鋸齒形或循環(huán)狀的變化,可以判定存在自相關(guān)
2.回歸檢驗法:
以殘差e(t)為被解釋變量,以各種可能的相關(guān)變量,如  e(t-1) e(t-2)作為自變量,選擇顯著的最優(yōu)擬合模型作為自相關(guān)的形式。
demo中以 ls residm1 c residm1(-1) residm1(-2)后 發(fā)現(xiàn)c的p值為0.54,做testdrop實驗,兩個p值都>0.5 可以將c剔除。剔除c后:
Dependent Variable: RESIDM1                               
Method: Least Squares                               
Date: 12/29/07   Time: 11:26                               
Sample (adjusted): 1952Q3 1996Q4                               
Included observations: 178 after adjustments                               
                               
Variable        Coefficient        Std. Error        t-Statistic        Prob. 
                               
RESIDM1(-1)        1.215361        0.077011        15.78173        0.0000
RESIDM1(-2)        -0.271664        0.078272        -3.470763        0.0007
                               
R-squared        0.868569            Mean dependent var                0.011855
Adjusted R-squared        0.867823            S.D. dependent var                26.91138
S.E. of regression        9.783961            Akaike info criterion                7.410538
Sum squared resid        16847.76            Schwarz criterion                7.446289
Log likelihood        -657.5379            Durbin-Watson stat                2.057531
                               
模型的r-sequared稍小,參數(shù)很顯著,dw顯示為無自相關(guān)。
但是常數(shù)c能剔除嗎?剔除后模型沒有f-statistic和對應(yīng)p值,原理何在?
3.DW檢驗法
用于小樣本的一階自相關(guān)情況,缺點:當(dāng)回歸方程右邊存在因變量的滯后項如m1(t-i) (i=1,2,...)時,檢驗失敗。

解決辦法:
1.差分法
用增量數(shù)據(jù)代替原來的樣本數(shù)據(jù),較好的克服了自相關(guān),但是改變了原方程的形式,意義不大。
2.Cochrane-Orcutt迭代法
不能有常數(shù)項!驗證了回歸檢驗的中的做法。
建立新方程時,e同e(-1) e(-2) 相關(guān),有兩個系數(shù)如何處理?

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多