信度和效度是優(yōu)良的測量工具所必具備的條件,如果對測量工具的信度和效度一無所知,則無法判斷其獲得的資料的可信性與有效程度。“工欲善其事,必先利其器”,在教育測量中要認(rèn)真檢查所使用的測量工具,考驗其信度、效度以及難度和區(qū)分度,才能期望獲得可靠與正確的資料。
一、教育測量的要素
(一) 單位
(二) 參照點
(三) 量表
二、教育測量的種類
以測量的對象來分類,教育測量有
(一) 學(xué)業(yè)成績測驗
(二) 智力測驗
(三) 人格測驗
(四) 特殊能力測驗
以測量的目的來分類,教育測量有
(一) 安置測驗
(二) 形成性測驗
(三) 總結(jié)性測驗
(四) 診斷性測驗
(五) 難度測驗
(六) 速度測驗
以測量的方式來分類,教育測量有
(一) 個人測驗
(二) 團體測驗
以試題的形式來分類,教育測量有
(一) 客觀性測驗
(二) 論文式測驗
(三) 投射測驗
(四) 情景測驗
三、教育測量的功能
(一) 教育測量是改進教學(xué)的良好工具
(二) 教育測量是教育管理的重要手段
(三) 教育測量是教育研究的重要方法
四、測量的評價
良好的測驗應(yīng)符合以下要求:
1、 試題的類型應(yīng)與測量的目的相適應(yīng)。
2、 試題應(yīng)具有代表性
3、 試題應(yīng)有適當(dāng)?shù)碾y度和區(qū)分度
4、 試題的表述要明晰、準(zhǔn)確,不會引起被試者對試題的誤解
5、 測驗的結(jié)果要具有可靠性和有效性
6、 測驗要宜于實施,易于評分,便于統(tǒng)計檢驗,在人力、物力和時間方面,符合經(jīng)濟性原則。
測驗的質(zhì)量評定
一、預(yù)備性知識:
1、標(biāo)準(zhǔn)差及其意義
計算公式是:
s=sqr(∑(x-X)2/N)
意義:標(biāo)準(zhǔn)差越大,表明數(shù)據(jù)的離散程度越大,即數(shù)據(jù)越參差不齊,分布范圍越廣;標(biāo)準(zhǔn)差越小,表明這組數(shù)據(jù)的;離散程度越小,即數(shù)據(jù)越集中,分布范圍越小。問題:在教育研究中,標(biāo)準(zhǔn)差越大越好,還是越小越好?看情況、問題而定。成績的標(biāo)準(zhǔn)差越大,就教學(xué)活動而言,難度越大;對選拔性測驗而言,則表明測驗質(zhì)量很差。
例:計算原始數(shù)據(jù)83,87,86,81,88的標(biāo)準(zhǔn)差。
結(jié)果:s=sqr6.80=2.61
當(dāng)兩種單位不同或單位相同但平均數(shù)差異很大的資料,如何比較資料的差異?
相對差異系數(shù)CV!
計算公式:
CV=s/X*100%
CV就是以平均數(shù)為單位,以標(biāo)準(zhǔn)差占平均數(shù)的百分比的大小來衡量差異的程度.差異系數(shù)越大,表明離散程度越大;差異系數(shù)越小,表明離散程度越小.
例:比較1999年蘭州市安寧區(qū)6歲男童體重與身高的離散程度.
|
平均數(shù)
|
標(biāo)準(zhǔn)差
|
體重
|
19.39kg
|
2.16kg
|
身高
|
115.87cm
|
4.86cm
|
體重CV=2.16/19.39*100%=11.14%
身高CV=4.86/115.87*100%=4.19%
根據(jù)經(jīng)驗, CV值一般在5%-35%之間。如果CV大于35%時,可懷疑平均數(shù)是否失去了意義;如果CV小于5%,可懷疑平均數(shù)與標(biāo)準(zhǔn)差的計算有誤。
2、相關(guān)系數(shù):
積差相關(guān)系數(shù)
r=∑(x-X)(y-Y)/nsxsy
其中,x(y)表示x(y)變量觀測值,X表示x(y)變量觀測值的算術(shù)平均數(shù)。sx和sy分別等于x變量和y變量的標(biāo)準(zhǔn)差。
例:計算并比較10個學(xué)生的語文、數(shù)學(xué)、化學(xué)成績之間的相關(guān)系數(shù)。
序號
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
語文
|
74
|
71
|
72
|
68
|
76
|
73
|
67
|
70
|
65
|
74
|
化學(xué)
|
76
|
75
|
71
|
70
|
76
|
79
|
65
|
77
|
62
|
72
|
數(shù)學(xué)
|
62
|
58
|
79
|
80
|
64
|
77
|
50
|
69
|
55
|
56
|
計算可得語文標(biāo)準(zhǔn)差為3.317,平均數(shù)為71;化學(xué)標(biāo)準(zhǔn)差為5.178,平均數(shù)為72.3,語文和化學(xué)的相關(guān)系數(shù)r=.780
等級相關(guān)
斯皮爾曼等級相關(guān):計算公式:rR=1-6∑D2/N(N2-1)
例:10名高中生學(xué)習(xí)潛在能力測驗與自學(xué)能力測驗成績的相關(guān)程度如何?
序號
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
學(xué)能
|
1
|
2
|
3
|
5
|
5
|
5
|
7
|
8
|
9
|
10
|
自能
|
2
|
1
|
3
|
5
|
7
|
4
|
8
|
6
|
10
|
9
|
計算得rR=.891
肯德爾和諧系數(shù)rw=SSR/1/12k2(n3-n)
(k表示評定者的人數(shù)或同一評定者對同一組被評事物先后評定次數(shù);n表示被評定事物的個數(shù);R表示k個評定者對同一被評事物所給予的等級之和;SSR表示R的離差平方和,即SSR=∑R2-(∑R)2/n)
例:4位教師對6個學(xué)生的作文競賽的名次排列如下,問評定的一致性如何?
學(xué)生
n=6
|
評定者 k=4
|
R
|
R2
|
1
|
2
|
3
|
4
|
1
|
3
|
4
|
2
|
1
|
10
|
102
|
2
|
4
|
3
|
1
|
3
|
11
|
112
|
3
|
2
|
1
|
3
|
4
|
10
|
102
|
4
|
6
|
5
|
6
|
5
|
22
|
222
|
5
|
1
|
2
|
4
|
2
|
9
|
92
|
6
|
5
|
6
|
5
|
6
|
22
|
222
|
總和
|
|
|
|
|
84
|
1370
|
SSR=194
Rw=.693
點二列相關(guān)
計算公式:rpb=(Xp-Xq)/S*sqr(pq)
例:18個5歲男女幼兒擲砂袋(150克)成績?nèi)缦卤?,問性別與投擲成績相關(guān)情況如何?
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
11
|
12
|
13
|
14
|
15
|
16
|
17
|
18
|
成績
|
4.0
|
3.6
|
3.5
|
3.2
|
4.4
|
4.8
|
3.8
|
5.2
|
4.7
|
3.4
|
4.9
|
3.7
|
3.3
|
4.7
|
4.8
|
3.1
|
2.9
|
3.4
|
性別
|
1
|
0
|
0
|
0
|
1
|
1
|
0
|
1
|
1
|
0
|
1
|
0
|
0
|
1
|
1
|
0
|
0
|
0
|
rpb=.910
二、信度(reliability)
(一) 意義:測驗的可靠性或可靠的程度
一個人站在測量體重的磅秤上,前后幾次稱出幾個明顯不同的重量,那么磅秤本身必定有問題,說明這架磅秤是不可靠的。在教育調(diào)查中,我們常采用問卷作為測量工具,如果我們所采用的問卷中的問題,原來打算測量某一概念,但由于設(shè)計不周密,問題或答案的范疇摸棱兩可或有多種解釋,以致被問者不能確定如何回答,從而使回答達不到一致性的要求,這就降低了測量的可靠性程度,那么它的信度就會成問題。
1.信度指實測值和真值相差的程度 X=T+E 絕對誤差:E=X-T 相對誤差=E/T*100%
2.信度是指一種測驗對相同被試再次測驗時引起同樣反映的程度
(二)信度系數(shù)的計算
常用的信度系數(shù)有穩(wěn)定性系數(shù)(coefficient of stability)、等值性系數(shù)(coefficient of equivalence)、內(nèi)部一致性系數(shù)(coefficient of internal constancy)等。
使用穩(wěn)定性系數(shù)時要注意的問題:(1)兩次測驗的時間間隔要適宜;(2)重測法適用于速度測驗而不適用于難度測驗。(3)要注意提高被試的積極性。
使用等值性系數(shù)時要注意的問題:(1)復(fù)份法的關(guān)鍵是兩個量表必須等值。(2)兩次測驗的時間間隔要盡可能短。(3)如果兩次測驗緊接,應(yīng)注意被試厭倦態(tài)度。(4)標(biāo)準(zhǔn)化測驗一般有復(fù)份,若沒有說明等值信度,或等值性系數(shù)較低,則使用復(fù)本時應(yīng)慎重。
計算內(nèi)部一致性系數(shù)的方法:(1)分半法(Split-half method)(2)Cronbach系數(shù)
(三)提高測驗信度的方法(1)延長測驗長度——新增加的題目與原有測驗題目應(yīng)有相同的統(tǒng)計性質(zhì),同時,不影響被試回答問題的方法。(2)難度要適當(dāng):r=1-SE2/SX2
經(jīng)驗表明,難度在.40-.70之間是合適的,也有人認(rèn)為.25-075都有利于提高測驗信度。(3)測驗的內(nèi)容應(yīng)盡量同質(zhì);(4)測量時間要充分;(5)測量的程序應(yīng)統(tǒng)一;(6)評分要客觀。(7)加大應(yīng)試者之間的差異
三、效度
所謂效度就是測驗分?jǐn)?shù)的正確性,意即“有多正確的程度”。在選擇測量工具和設(shè)計問卷時,首先要考慮其效度。也就是說,要考慮“測量出來的東西是否真是研究者想要得到的東西”、“所測的結(jié)果是否能正確、有效的說明所要研究的現(xiàn)象”。
鑒別效度,必須確定測量的目的與范圍,考慮所要測量的內(nèi)容是什么,分析其性質(zhì)和表現(xiàn)特征,進而核查測量的內(nèi)容是否與測量的目的相符合,以此判斷測量結(jié)果反映所要測量特征的程度。
假設(shè)某種測量的目的是衡量個體在某項屬性(如工資收入)上的差異情況,則一群被調(diào)查者在該測量中得分的總變異量包括三個部分:一為個體在與該屬性有關(guān)的共同屬性上所造成的變異量,一為與該屬性無關(guān)的其他個別特征(如獎金、補貼、親友贈款等)所造成的變異量,其余為隨機誤差變異量。由此可以看出,效度就是在測量得分的總變異中,由所要測量的特質(zhì)所造成的變異量所占的百分比。
|