古典測驗(yàn)理論

航海王魯夫 2009-05-22

展開全文

單元一
古典測驗(yàn)理論簡介
2006/9/15
1
古典測驗(yàn)理論
余民寧教授
摘自「教育測驗(yàn)與評量：成就測驗(yàn)與教學(xué)評量」一書（2002，臺北，心理）
雖然根據(jù)歷史學(xué)家（DuBois, 1970）的描述，早在西元一千多年前科舉時(shí)代的中國，即
有能力測驗(yàn)（即科舉考試制度）的雛型產(chǎn)生。但是，對「測驗(yàn)」這門學(xué)問進(jìn)行科學(xué)化的量化
研究者，卻始於歐美各國，西風(fēng)東漸之後，才又傳入中國。
西元1905 年，Binet-Simon 在法國所發(fā)展的智力測驗(yàn)，可以說是人類第一個(gè)客觀的心理
測驗(yàn)，也是測驗(yàn)理論的真正濫觴。至此，這門專研心理測驗(yàn)與評量（psychological testing and
assessment），內(nèi)含：量化心理學(xué)（quantitative psychology）、個(gè)別差異（individual differences）、
和心理測驗(yàn)理論（mental test theory）等研究範(fàn)圍的科學(xué)，即稱為「心理計(jì)量學(xué)」（psychometrics）
（或又譯成：「心理測驗(yàn)學(xué)」），正式確立。心理計(jì)量學(xué)的誕生，乃心理學(xué)者企圖將心理學(xué)發(fā)展
成為一門「量化的理性科學(xué)」（quantitative rational science）的結(jié)果，到目前為止，它雖然已
邁入不同的新紀(jì)元，但成長與茁壯的腳步，卻未曾停止過。
談到測驗(yàn)理論的發(fā)展，很多人喜歡以某某學(xué)派來作為區(qū)分，雖然這種分法不見得正確，
但為了討論方便起見，我們亦可以一本著作或一位人物，作為某個(gè)學(xué)派理論的開始或代表。
如此一來，我們大概可以將測驗(yàn)理論粗分為下列兩派：
1.古典測驗(yàn)理論（classical test theory，簡稱CTT）：代表人物和作品分別為H. Gulliksen
的「Theory of mental test」（1950）。
2.試題反應(yīng)理論（item response theory，簡稱IRT）：代表人物和作品分別為F. Lord 的
「Applications of item response theory to practical testing problems」（1980）。
底下，僅先就古典測驗(yàn)理論的重要內(nèi)涵做個(gè)扼要的評述，下一節(jié)再敘述試題反應(yīng)理論。
「古典測驗(yàn)理論」是最早的測驗(yàn)理論，至今，它仍然是最實(shí)用的測驗(yàn)理論，許多通用的
測驗(yàn)仍然是根據(jù)傳統(tǒng)方法來編製，並且建立起測驗(yàn)資料間的實(shí)證關(guān)係。古典測驗(yàn)理論也叫「古
典信度理論」（classical reliability theory），因?yàn)椋闹饕康氖窃诠烙?jì)某個(gè)測驗(yàn)實(shí)得分?jǐn)?shù)
（observed score）的信度；亦即，它企圖估計(jì)實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)（true score）間的關(guān)聯(lián)程
度。因此，有時(shí)候它又稱作「真實(shí)分?jǐn)?shù)理論」（true score theory），因?yàn)樗睦碚搧碓炊际墙?br>立在以「真實(shí)分?jǐn)?shù)模式」（true score model）為名的數(shù)學(xué)模式基礎(chǔ)上。
當(dāng)某位受試者接受一份測驗(yàn)的施測後，他（或她）在該測驗(yàn)上的得分（即「實(shí)得分?jǐn)?shù)」），
即代表在某些特定的情境下，他（或她）在這些試題樣本上的能力（ability）。當(dāng)然，有許
多因素會影響受試者在測驗(yàn)上的表現(xiàn)。即使在內(nèi)容範(fàn)圍相同但試題樣本不同的條件下，或在
不同的時(shí)間、主測者、與施測情境條件下，受試者的表現(xiàn)也都有可能會不一樣。因此，如果
單元一
古典測驗(yàn)理論簡介
2006/9/15
2
我們在所有可能的施測情境下、在所有可能的不同時(shí)間範(fàn)圍內(nèi)、或儘可能使用不同試題樣本，
來針對同一位受試者進(jìn)行同樣的測驗(yàn)多次（理論上是無窮多次），則我們可以獲得許多有關(guān)該
受試者的實(shí)得分?jǐn)?shù)。這些實(shí)得分?jǐn)?shù)的平均數(shù)（又稱為期望值（expected value）），即代表該受
試者能力的不偏估計(jì)值（unbiased estimate)，該估計(jì)值即被定義為「真實(shí)分?jǐn)?shù)」。因此，所謂
的「真實(shí)分?jǐn)?shù)模式」，即是指一種直線關(guān)係的數(shù)學(xué)模式（linear model），用來表示任何可以觀
察到、測量到的實(shí)得分?jǐn)?shù)（又簡稱為觀察值或測量值）皆由下列兩個(gè)部份所構(gòu)成的一種數(shù)學(xué)
涵數(shù)關(guān)係，這兩個(gè)部份分別是：一為觀察不到，但代表研究者真正想要去測量的潛在特質(zhì)
（latent trait）部份，叫作「真實(shí)分?jǐn)?shù)」；另一為觀察不到，且不代表潛在特質(zhì)，卻是研究者
想要極力去避免或設(shè)法降低的部份，叫作「誤差分?jǐn)?shù)」(error score）。這兩個(gè)部份合併構(gòu)成任
何一個(gè)真實(shí)的測量值（即實(shí)得分?jǐn)?shù)），並且彼此之間具有及延伸出多種基本假設(shè)，能符合這些
基本假設(shè)的測量問題，即為真實(shí)分?jǐn)?shù)模式所探討的範(fàn)疇。
根據(jù)古典測驗(yàn)理論的假設(shè)，受試者所具有的某種潛在特質(zhì)，無法單由一次測驗(yàn)的實(shí)得分
數(shù)來表示，它必須由受試者在無數(shù)次測驗(yàn)上所得的實(shí)得分?jǐn)?shù)，以其平均數(shù)來表示，該數(shù)值即
是受試者的潛在特質(zhì)之不偏估計(jì)值，即是前述的「真實(shí)分?jǐn)?shù)」；真實(shí)分?jǐn)?shù)的存在並不受測量次
數(shù)的影響，它代表長期測量結(jié)果「不變」的部份。而實(shí)際上，單獨(dú)一次測量所得的實(shí)得分?jǐn)?shù)，
總會與真實(shí)分?jǐn)?shù)間產(chǎn)生一段差距，這段差距即稱作「隨機(jī)誤差分?jǐn)?shù)」（random error score），
或簡稱為「誤差」（error）；誤差分?jǐn)?shù)深受測量工具之精確度的影響很大，它代表某次測量結(jié)
果「可變」的部份。若以數(shù)學(xué)公式來表示，這兩種分?jǐn)?shù)與實(shí)得分?jǐn)?shù)間的關(guān)係可以表示如下：
χ = t ＋ e
其中，χ 代表實(shí)得分?jǐn)?shù)， t 代表真實(shí)分?jǐn)?shù)， e 代表誤差分?jǐn)?shù)。
古典測驗(yàn)理論即是建立在上述這種真實(shí)分?jǐn)?shù)模式及其假設(shè)的基礎(chǔ)上，針對測驗(yàn)資料間的
實(shí)證關(guān)係，進(jìn)行有系統(tǒng)解釋的一門學(xué)問。
壹、真實(shí)分?jǐn)?shù)理論的基本假設(shè)及其結(jié)論
真實(shí)分?jǐn)?shù)模式的成立，必須滿足一些基本假設(shè)，這些基本假設(shè)就是真實(shí)分?jǐn)?shù)理論所賴以
建立的基礎(chǔ)。
真實(shí)分?jǐn)?shù)理論的基本假設(shè)，可以歸納成下列七項(xiàng)：
1. e t + = χ (即實(shí)得分?jǐn)?shù)等於真實(shí)分?jǐn)?shù)與誤差分?jǐn)?shù)之和)；
2. t = Ε ) ( χ (即實(shí)得分?jǐn)?shù)的期望值等於真實(shí)分?jǐn)?shù))；
3. 0 = te ρ (即真實(shí)分?jǐn)?shù)與誤差分?jǐn)?shù)之間呈零相關(guān))；
4. 0 2 1 = e e ρ (即不同測驗(yàn)的誤差分?jǐn)?shù)間呈零相關(guān))；
單元一
古典測驗(yàn)理論簡介
2006/9/15
3
5. 0 2 1 = t e
ρ (即不同測驗(yàn)的誤差分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間呈零相關(guān))；
6. 假設(shè)有兩個(gè)測驗(yàn)，其實(shí)得分?jǐn)?shù)分別為χ和' χ，並且滿足上述 1 到 5 的假設(shè)，且對每一群
體考生而言，亦滿足 ' t t = 和'
2 2
e e σ σ = 等條件，則這兩個(gè)測驗(yàn)便稱作「複本測驗(yàn)」 (parallel
tests)；
7. 假設(shè)有兩個(gè)測驗(yàn)，其實(shí)得分?jǐn)?shù)分別為χ和' χ，並且滿足上述 1 到 5 的假設(shè)，且對每一群
體考生而言，亦滿足 12 2 1 c t t + = ，其中 12 c 為一常數(shù)，則這兩個(gè)測驗(yàn)稱作「本質(zhì)上τ相等測
驗(yàn)」（essentially τ-equivalent tests)。
根據(jù)上述七個(gè)基本假設(shè)的數(shù)學(xué)公式所示可知，古典測驗(yàn)理論對測量問題所持的觀點(diǎn)，可
以做如下的詮釋：
1.假設(shè)具有潛在特質(zhì)存在。
從第一個(gè)假設(shè)可知，測量必須要有對象，此對象即是我們所假定的潛在特質(zhì)（亦即是ｔ
所代表者），它是看不見的東西，但我們必須先假設(shè)它的存在，如此才值得我們?nèi)y量它，若
不先假設(shè)它是存在的，則我們的任何測量行為都將失卻目標(biāo)，變得盲目無效。
2.多次測量的推論結(jié)果。
既然上述所假設(shè)的潛在特質(zhì)是看不見的，因此，我們就無法直接進(jìn)行測量它。我們僅能
從數(shù)學(xué)觀點(diǎn)去假設(shè)它與我們從外觀測量得到的數(shù)據(jù)間具有某種數(shù)學(xué)關(guān)係（通常都假設(shè)成直線
關(guān)係），為了釐清這種關(guān)係，通常需要使用多次的測量數(shù)據(jù)，再透過統(tǒng)計(jì)學(xué)的估算（如：求期
望值），才能估計(jì)出這種潛在特質(zhì)的量到底是多少，並且推論出它與外觀測量得到的數(shù)據(jù)間具
有什麼關(guān)係。
3.單獨(dú)一次的測量必有誤差存在。
既然潛在特質(zhì)是經(jīng)由多次測量才推論得到，因此，單獨(dú)一次的測量結(jié)果，除了測量到所
要測量的潛在特質(zhì)外，也必定同時(shí)測量到誤差成份。但是，在經(jīng)過多次的測量後，我們由上
述說明所推論出來的結(jié)果將愈來愈接近真正的潛在特質(zhì)，因此，這麼多次測量值所含的誤差
分?jǐn)?shù)也就可以彼此抵銷。這項(xiàng)結(jié)論也就是上述第一和第二個(gè)假設(shè)合併起來的推理結(jié)果。
4.假設(shè)潛在特質(zhì)與誤差之間是獨(dú)立的。
第四個(gè)假設(shè)把測量問題單純化，僅假設(shè)潛在特質(zhì)與誤差之間是獨(dú)立的。由於有這項(xiàng)假設(shè)
存在，在測量時(shí)，我們不必考慮其他可能干擾測量結(jié)果的來源，僅將潛在特質(zhì)以外的干擾，
統(tǒng)統(tǒng)歸類到所謂的測量誤差（measurement errors），不再進(jìn)一步細(xì)部分析，如此，可以把測量
結(jié)果的推論問題單純化。附帶一提的是，這項(xiàng)假設(shè)亦延伸出第四和第五個(gè)假設(shè)；但是，這種
把測量問題單純化的假設(shè)，卻是造成古典測驗(yàn)理論飽受批評的地方。
5.複本測驗(yàn)的嚴(yán)格假設(shè)。
單元一
古典測驗(yàn)理論簡介
2006/9/15
4
古典測驗(yàn)理論對測量結(jié)果的解釋和比較，是建立在複本測驗(yàn)的嚴(yán)格假設(shè)上。換句話說，
從第六和第七個(gè)假設(shè)可知，唯有滿足複本測驗(yàn)之嚴(yán)格假設(shè)的兩個(gè)測量結(jié)果間，才可以直接進(jìn)
行比較大小和解釋優(yōu)劣；若非滿足此假設(shè)，則任何兩次測量結(jié)果間的解釋和比較，均是無意
義的。
根據(jù)上述的詮釋，從真實(shí)分?jǐn)?shù)理論的基本假設(shè)可以推導(dǎo)出下列十八項(xiàng)結(jié)論，這些結(jié)論正
是古典測驗(yàn)理論的研究主題所賴以推理及演繹的依據(jù)：
1. 0 ) ( = Ε e （即誤差分?jǐn)?shù)的期望值為零)；
2. 0 ) , ( = = Ε et t e ρ （即誤差分?jǐn)?shù)與真實(shí)分?jǐn)?shù)之期望值為零)；
3. e t x
2 2 2 σ σ σ + = (即實(shí)得分?jǐn)?shù)的變異數(shù)等於真實(shí)分?jǐn)?shù)的變異數(shù)與誤差分?jǐn)?shù)的變異數(shù)之和)；
4. x t xt
2 2 2 σ σ ρ = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於真實(shí)分?jǐn)?shù)之變異數(shù)和實(shí)
得分?jǐn)?shù)之變異數(shù)的比值)；
5. x e xt
2 2 2 1 σ σ ρ − = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於１減去誤差分?jǐn)?shù)之變
異數(shù)和實(shí)得分?jǐn)?shù)之變異數(shù)的比值)；
6. '
2 2
x x σ σ = (即複本測驗(yàn)的實(shí)得分?jǐn)?shù)之變異數(shù)相同)；
7. y x xy ' ρ ρ = (即複本測驗(yàn)分?jǐn)?shù)與另一變項(xiàng)分?jǐn)?shù)間的相關(guān)係數(shù)相同)；
8. '
2
'
2 2 2
' x t x t xx σ σ σ σ ρ = = (即複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於其中一種測驗(yàn)之真實(shí)分?jǐn)?shù)
變異數(shù)和實(shí)得分?jǐn)?shù)變異數(shù)的比值)；
9. x e xx
2 2
' 1 σ σ ρ − = (即複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於１減去誤差分?jǐn)?shù)之變異數(shù)和實(shí)得分
數(shù)之變異數(shù)的比值)；
10. xe xx
2
' 1 ρ ρ − = (即複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於１減去實(shí)得分?jǐn)?shù)與誤差分?jǐn)?shù)間之相關(guān)
係數(shù)的平方）；
11. '
2
xx xt ρ ρ = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係
數(shù))；
12. '
2
xx t σ σ = (即真實(shí)分?jǐn)?shù)的變異數(shù)等於複本測驗(yàn)的實(shí)得分?jǐn)?shù)間之共變數(shù))；
13. ) 1 ( '
2 2
xx x e ρ σ σ − = (即誤差分?jǐn)?shù)的變異數(shù)等於實(shí)得分?jǐn)?shù)的變異數(shù)乘以１減去複本測驗(yàn)間
之相關(guān)係數(shù))；
14.
' ' yy xx
xy
t t y x ρ ρ
ρ
ρ = (即任兩個(gè)測驗(yàn)的真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)等於該二測驗(yàn)的實(shí)得分?jǐn)?shù)間
之相關(guān)係數(shù)除以該二測驗(yàn)之複本測驗(yàn)相關(guān)係數(shù)的相乘積之開根號)；
單元一
古典測驗(yàn)理論簡介
2006/9/15
5
15. Y X t t N 2 2 2 σ σ = (即如果Ｘ為Ｎ個(gè)複本測驗(yàn)分?jǐn)?shù)Ｙ之和，則Ｘ的真實(shí)分?jǐn)?shù)之變異數(shù)等於Ｎ
平方倍之Ｙ的真實(shí)分?jǐn)?shù)之變異數(shù))；
16. Y X e e N 2 2 2 σ σ = (即如果Ｘ為Ｎ個(gè)複本測驗(yàn)分?jǐn)?shù)Ｙ之和，則Ｘ的誤差分?jǐn)?shù)之變異數(shù)等於Ｎ
平方倍之Ｙ的誤差分?jǐn)?shù)之變異數(shù))；
17.
'
'
' ) 1 ( 1 YY
YY
xx N
N
ρ
ρ
ρ
− +
= (即如果Ｘ為Ｎ個(gè)複本測驗(yàn)分?jǐn)?shù)Ｙ之和，則此為 Spearman-Brown 的
折半信度公式)；
18. 如果0 ' ≠ YY ρ ，則1 lim ' =
∞ → xx n
ρ (即Ｘ和Ｙ的定義同結(jié)論15，如果' YY ρ 不等於０，則' XX ρ 的
極限為１)。
整個(gè)古典測驗(yàn)理論便是以前述七項(xiàng)基本假設(shè)，和推導(dǎo)出的十八項(xiàng)結(jié)論為基礎(chǔ)，企圖去估
計(jì)測驗(yàn)內(nèi)（或測驗(yàn)間）實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間的關(guān)聯(lián)強(qiáng)度，這些關(guān)聯(lián)強(qiáng)度亦即是該理論所要
估計(jì)的各種可能信度係數(shù)，故古典測驗(yàn)理論又有「古典信度理論」之稱。
除了信度估計(jì)之外，古典測驗(yàn)理論也還探討其他有關(guān)聯(lián)的話題，例如：效度（validity）、
測驗(yàn)編製（test construction）、常模（norm）、測驗(yàn)等化（test equating）、測驗(yàn)偏差（test bias）、
試題分析（item analysis）、精熟測驗(yàn)（mastery testing）、適性測驗(yàn)（adaptive testing）、題庫建
立（item banking）、及其在社會科學(xué)研究上的應(yīng)用課題等；這些課題都是根據(jù)它的基本假設(shè)
和推論延伸而來，並且散見於專書、會議論文、和下列各種重要學(xué)術(shù)期刊：
1. Annual Review of Psychology
2. Applied Psychological Measurement
3. The British Journal of Mathematical and Statistical Psychology（早期刊名：The British
Journal of Statistical Psychology）
4. Educational Measurement : Issues and Practice
5. Educational and Psychological Measurement
6. Journal of Educational Measurement
7. Journal of Educational Statistics
8. Psychometrika
9. 中華心理學(xué)刊
10. 測驗(yàn)?zāi)昕?br>11. 測驗(yàn)與輔導(dǎo)
12. 輔導(dǎo)月刊
13. 國內(nèi)各大學(xué)相關(guān)學(xué)報(bào)及教育領(lǐng)域?qū)W術(shù)期刊
貳、古典測驗(yàn)理論的優(yōu)缺點(diǎn)
單元一
古典測驗(yàn)理論簡介
2006/9/15
6
古典測驗(yàn)理論的理論架構(gòu)，主要是以真實(shí)分?jǐn)?shù)模式為主，其理論模式的發(fā)展已為時(shí)甚久，
且頗具規(guī)模，所採用的計(jì)算公式簡單明瞭、淺顯易懂，適用於大多數(shù)的教育與心理測驗(yàn)情境，
以及社會科學(xué)研究資料的分析，為目前心理計(jì)量學(xué)界應(yīng)用與流通最廣的一種測驗(yàn)理論。
然而，若從當(dāng)代測驗(yàn)理論（以「試題反應(yīng)理論」為代表）的觀點(diǎn)來看，古典測驗(yàn)理論除
了具備上述各項(xiàng)優(yōu)點(diǎn)外，卻含有下列諸項(xiàng)缺失：
1.古典測驗(yàn)理論所採用的指標(biāo)，諸如：難度（difficulty）、鑑別度（discrimination）、和信
度（reliability）等，都是一種樣本依賴（sample dependent）的指標(biāo)；也就是說，這些指標(biāo)
的獲得，會因?yàn)榻邮軠y驗(yàn)的受試者樣本的不同而不同，因此，針對不同潛在特質(zhì)的樣本，同
一份測驗(yàn)很難獲得一致的難度、鑑別度、或信度等指標(biāo)。
2.古典測驗(yàn)理論以一個(gè)共同的測量標(biāo)準(zhǔn)誤（standard error of measurement），作為每位受試
者的潛在特質(zhì)估計(jì)值的測量誤差指標(biāo)；這種作法完全沒有考慮受試者反應(yīng)的個(gè)別差異，對於
具有高、低兩極端潛在特質(zhì)的受試者而言，這種指標(biāo)極為不合理且不精確，致使古典測驗(yàn)理
論模式的適當(dāng)性受到懷疑。
3.古典測驗(yàn)理論對於非複本（nonparallel），但功能相同的測驗(yàn)所獲得之量數(shù)間，無法提
供有意義的比較；有意義的比較僅侷限在相同測驗(yàn)的前後測量之量數(shù)或複本測驗(yàn)分?jǐn)?shù)之間而
已。
4.古典測驗(yàn)理論對信度的假設(shè)，是建立在複本（parallel forms）測量概念的假設(shè)上；但是
這種假設(shè)在實(shí)際的測驗(yàn)情境裡，往往是不合理或不存在的。因?yàn)椋趯?shí)際的測驗(yàn)情境下，施
測者不可能要求每位受試者在接受同一份測驗(yàn)無數(shù)次後，而仍然保持每次反應(yīng)結(jié)果都彼此獨(dú)
立、互相不影響；況且，每一種測驗(yàn)並不一定在編製測驗(yàn)之時(shí)就同時(shí)製作複本。因此，複本
測量的理論假設(shè)是行不通的，不論是從實(shí)際層面或方法學(xué)邏輯的觀點(diǎn)來看，它的假設(shè)既不切
實(shí)際、又不合理、並且也是矛盾的。
5.古典測驗(yàn)理論忽視受試者作答的試題反應(yīng)組型（item response pattern）所代表的意義，
對於在原始得分上相同的受試者或正確反應(yīng)總和相同的試題，即看成是潛在特質(zhì)（如：能力）
或試題參數(shù)（如：難度）的估計(jì)值相同。這種觀點(diǎn)其實(shí)是不正確的，因?yàn)椋偡窒嗤氖茉?br>者或總和相同的試題，其試題反應(yīng)組型不見得會完全一致，因此，試題反應(yīng)組型所顯示的意
義也不會相同，所估算出的潛在特質(zhì)和試題參數(shù)估計(jì)值，應(yīng)該也會不一樣。
由於古典測驗(yàn)理論有上述諸項(xiàng)缺失，學(xué)者們?yōu)閺浹a(bǔ)這個(gè)理論上的缺失，乃轉(zhuǎn)向?qū)で罄碚?br>與方法均較嚴(yán)謹(jǐn)?shù)漠?dāng)代測驗(yàn)理論，於是才會有日後的「試題反應(yīng)理論」誕生。不過，由於古
典測驗(yàn)理論所採用的數(shù)學(xué)方法較為簡單易行，廣被中小學(xué)教師及一般大眾所能接受，在當(dāng)今
單元一
古典測驗(yàn)理論簡介
2006/9/15
7
實(shí)務(wù)應(yīng)用方面，古典測驗(yàn)理論的重要性仍佔(zhàn)有一席之地。
附錄古典測驗(yàn)理論的重要參考專書
Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory. Monterey, CA:
Brooks/Cole.
Anastasi, A. (1988). Psychological testing (6th ed.). New York: Macmillan.
Berk, R. A. (Ed.) (1980). Criterion referenced measurement: The state of the art. Baltimore,
MD: Johns Hopkins University Press.
Berk, R. A. (Ed.) (1982). Handbook of methods for detecting test bias. Baltimore, MD: Johns
Hopkins University Press.
Berk, R. A. (Ed.) (1984). A guide to criterion referenced test construction. Baltimore, MD:
Johns Hopkins University Press.
Berk, R. A. (Ed.) (1986). Performance assessment: Methods and applications. Baltimore,
MD: Johns Hopkins University Press.
Cohen, R. J., Montague, P., Nathanson, L. S., & Swerdlik, M. E. (1988). Psychological testing:
An introduction to tests and measurement. Mountain View, CA: Mayfield.
Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. New York:
Holt, Rinehart & Winston.
Cronbach, L. J. (1990). Essentials of psychological testing (5th ed.). New York: Harper &
Row.
Cronbach, L. J., Gleser, G. C., Nanda, H., & Rajaratnam, N. (1972). The dependability of
behavioral measures: Theory of generalizability for scores and profiles. New York: John Wiley &
Sons.
Dick, W., & Hagerty, N. (1971). Topics in measurement: Reliability and validity. New York:
McGraw-Hill.
DuBois, P. H. (1970). A history of psychological testing. Boston, MA: Allyn & Bacon.
Ebel, R. L., & Frisbie, D. A. (1991). Essentials of educational measurement (5th ed.).
Englewood Cliffs, NJ: Prentice-Hall.
Fan, C. T. (1952). Item analysis table. Princeton, NJ: Educational Testing Service.
Gronlund, N. E. (1993). How to make achievement tests and assessments (5th ed.). Boston:
Allyn & Bacon.
Gronlund, N. E., & Linn, R. L. (1990). Measurement and evaluation in teaching (6th ed.).
New York: Macmillan.
Gulliksen, H. (1987). Theory of mental test. Hillsdale, NJ: Lawrence Erlbaum Associates.
(Originally published in 1950 by New York: John Wiley & Sons)
Haladyna, T. M. (1994). Developing and validating multiple-choice test items. Hillsdale, NJ:
單元一
古典測驗(yàn)理論簡介
2006/9/15
8
Lawrence Erlbaum Associates.
Hopkins, K. D., Stanley, J. C., & Hopkins, B. R. (1990). Educational and psychological
measurement and evaluation (7th ed.). Englewood Cliffs, NJ: Prentice Hall.
Jensen, A. R. (1980). Bias in mental testing. New York: The Free Press.
Kaplan, R. M., & Saccuzzo, D. P. (1993). Psychological testing: Principles, applications, and
issues (3rd ed.). Pacific Grove, CA: Brooks/Cole.
Kryspin, W. J., & Feldhusen, J. T. (1974). Developing classroom tests. Minneapolis, Minn:
Burgess.
Kubiszyn, T., & Borich, G. (1987). Educational testing and measurement: Classroom
application and practice (2nd ed.). Glenview, IL: Scott, Foresman & Company.
Lindquist, E. F. (Ed.) (1951). Educational measurement. Washington, DC: American Council
on Education.
Linn, R. L. (Ed.) (1989). Educational measurement (3rd ed.). Washington, DC: American
Council on Education.
Linn, R. L., & Gronlund, N. E. (2000). Measurement and assessment in teaching (8th ed.).
Upper Saddle River, NJ: Prentice-Hall.
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA:
Addison-Wesley.
Mehrens, W. A., & Lehmann, I. J. (1991). Measurement and evaluation in education and
psychology (4th ed.). New York: Holt, Rinehart & Winston.
Nitko, A. J. (1983). Educational tests and measurement. New York: Harcourt Brace
Jovanovich.
Nitko, A. J. (2001). Educational assessment of students (3rd ed.). Upper Saddle River, NJ:
Prentice-Hall.
Noll, V. H., Scannell, D. P., & Craig, R. C. (1979). Introduction to educational measurement
(4th ed.). Boston, MA: Houghton Mifflin.
Oosterhof, A. (2001). Classroom applications of educational measurement（3rd ed.）. Upper
Saddle River, NJ: Prentice-Hall.
Osterlind, S. J. (1998). Constructing test items: Multiple-choice, constructed-response,
performance, and other formats（2nd ed.）. Boston: Kluwer Academic Publishers.
Ory, J. C., & Ryan, K. E. (1993). Tips for improving testing and grading. Newbury Park, CA:
Sage.
Payne, D. A. (1992). Measuring and evaluating educational outcomes. New York:
Macmillian.
Popham, W. J. (1978). Criterion-referenced measurement. Englewood Cliffs, NJ:
Prentice-Hall.
Popham, W. J. (1990). Modern educational measurement: A practitioner's perspective (2nd
ed.). Englewood Cliffs, NJ: Prentice-Hall.
單元一
古典測驗(yàn)理論簡介
2006/9/15
9
Popham, W. J. (1999). Classroom assessment: What teachers need to know （2nd ed.）. Boston:
Allyn & Bacon.
Priestly, M. (1982). Performance assessment in education and training: Alternative
techniques. Englewood Cliffs, NJ: Educational Technology Publications.
Sax, G. (1989). Principles of educational and psychological measurement and evaluation
(3rd ed.). Belmont, CA: Wadsworth.
Stiggins, R. J. (1994). Student-centered classroom assessment. New York: Macmillan.
Stiggins, R. J., & Conklin, N. F. (1992). In teacher's hands. Albany, NY: State University of
New York Press.
Suen, H. K. (1990). Principles of test theories. Hillsdale, NJ: Lawrence Erlbaum Associates.
Thorndike, R. M., Cunningham, G. K., Thorndike, R. L., & Hagen, E. P. (1991). Measurement
and evaluation in psychology and education (5th ed.). New York: Macmillan.
Tindal, G. A., & Marston, D. B. (1990). Classroom-based assessment. Columbus, OH: Charles
E. Merrill.
Wainer, H., & Braun, H. I. (Eds.) (1988). Test validity. Hillsdale, NJ: Lawrence Erlbaum
Associates.
Wiersma, W., & Jurs, S. G. (1990). Educational measurement and testing (2nd ed.). Boston:
Allyn & Bacon.
Worthen, B. R., Borg, W. R., & White, K. R. (1993). Measurement and evaluation in the
schools. New York: Longman.

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：航海王魯夫 > 《我的圖書館》

舉報(bào)/認(rèn)領(lǐng)