日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

古典測驗(yàn)理論

 航海王魯夫 2009-05-22
單元一
古典測驗(yàn)理論簡介
2006/9/15
1
古典測驗(yàn)理論
余民寧 教授
摘自「教育測驗(yàn)與評量:成就測驗(yàn)與教學(xué)評量」一書(2002,臺北,心理)
雖然根據(jù)歷史學(xué)家(DuBois, 1970)的描述,早在西元一千多年前科舉時(shí)代的中國,即
有能力測驗(yàn)(即科舉考試制度)的雛型產(chǎn)生。但是,對「測驗(yàn)」這門學(xué)問進(jìn)行科學(xué)化的量化
研究者,卻始於歐美各國,西風(fēng)東漸之後,才又傳入中國。
西元1905 年,Binet-Simon 在法國所發(fā)展的智力測驗(yàn),可以說是人類第一個(gè)客觀的心理
測驗(yàn),也是測驗(yàn)理論的真正濫觴。至此,這門專研心理測驗(yàn)與評量(psychological testing and
assessment),內(nèi)含:量化心理學(xué)(quantitative psychology)、個(gè)別差異(individual differences)、
和心理測驗(yàn)理論(mental test theory)等研究範(fàn)圍的科學(xué),即稱為「心理計(jì)量學(xué)」(psychometrics)
(或又譯成:「心理測驗(yàn)學(xué)」),正式確立。心理計(jì)量學(xué)的誕生,乃心理學(xué)者企圖將心理學(xué)發(fā)展
成為一門「量化的理性科學(xué)」(quantitative rational science)的結(jié)果,到目前為止,它雖然已
邁入不同的新紀(jì)元,但成長與茁壯的腳步,卻未曾停止過。
談到測驗(yàn)理論的發(fā)展,很多人喜歡以某某學(xué)派來作為區(qū)分,雖然這種分法不見得正確,
但為了討論方便起見,我們亦可以一本著作或一位人物,作為某個(gè)學(xué)派理論的開始或代表。
如此一來,我們大概可以將測驗(yàn)理論粗分為下列兩派:
1.古典測驗(yàn)理論(classical test theory,簡稱CTT):代表人物和作品分別為H. Gulliksen
的「Theory of mental test」(1950)。
2.試題反應(yīng)理論(item response theory,簡稱IRT):代表人物和作品分別為F. Lord 的
「Applications of item response theory to practical testing problems」(1980)。
底下,僅先就古典測驗(yàn)理論的重要內(nèi)涵做個(gè)扼要的評述,下一節(jié)再敘述試題反應(yīng)理論。
「古典測驗(yàn)理論」是最早的測驗(yàn)理論,至今,它仍然是最實(shí)用的測驗(yàn)理論,許多通用的
測驗(yàn)仍然是根據(jù)傳統(tǒng)方法來編製,並且建立起測驗(yàn)資料間的實(shí)證關(guān)係。古典測驗(yàn)理論也叫「古
典信度理論」(classical reliability theory),因?yàn)椋闹饕康氖窃诠烙?jì)某個(gè)測驗(yàn)實(shí)得分?jǐn)?shù)
(observed score)的信度;亦即,它企圖估計(jì)實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)(true score)間的關(guān)聯(lián)程
度。因此,有時(shí)候它又稱作「真實(shí)分?jǐn)?shù)理論」(true score theory), 因?yàn)樗睦碚搧碓炊际墙?br>立在以「真實(shí)分?jǐn)?shù)模式」(true score model)為名的數(shù)學(xué)模式基礎(chǔ)上。
當(dāng)某位受試者接受一份測驗(yàn)的施測後,他(或她)在該測驗(yàn)上的得分(即「實(shí)得分?jǐn)?shù)」),
即代表在某些特定的情境下,他(或她)在這些試題樣本上的能力(ability)。 當(dāng)然,有許
多因素會影響受試者在測驗(yàn)上的表現(xiàn)。即使在內(nèi)容範(fàn)圍相同但試題樣本不同的條件下,或在
不同的時(shí)間、主測者、與施測情境條件下,受試者的表現(xiàn)也都有可能會不一樣。因此,如果
單元一
古典測驗(yàn)理論簡介
2006/9/15
2
我們在所有可能的施測情境下、在所有可能的不同時(shí)間範(fàn)圍內(nèi)、或儘可能使用不同試題樣本,
來針對同一位受試者進(jìn)行同樣的測驗(yàn)多次(理論上是無窮多次),則我們可以獲得許多有關(guān)該
受試者的實(shí)得分?jǐn)?shù)。這些實(shí)得分?jǐn)?shù)的平均數(shù)(又稱為期望值(expected value)),即代表該受
試者能力的不偏估計(jì)值(unbiased estimate),該估計(jì)值即被定義為「真實(shí)分?jǐn)?shù)」。因此,所謂
的「真實(shí)分?jǐn)?shù)模式」,即是指一種直線關(guān)係的數(shù)學(xué)模式(linear model),用來表示任何可以觀
察到、測量到的實(shí)得分?jǐn)?shù)(又簡稱為觀察值或測量值)皆由下列兩個(gè)部份所構(gòu)成的一種數(shù)學(xué)
涵數(shù)關(guān)係,這兩個(gè)部份分別是:一為觀察不到,但代表研究者真正想要去測量的潛在特質(zhì)
(latent trait)部份,叫作「真實(shí)分?jǐn)?shù)」;另一為觀察不到,且不代表潛在特質(zhì),卻是研究者
想要極力去避免或設(shè)法降低的部份,叫作「誤差分?jǐn)?shù)」(error score)。這兩個(gè)部份合併構(gòu)成任
何一個(gè)真實(shí)的測量值(即實(shí)得分?jǐn)?shù)),並且彼此之間具有及延伸出多種基本假設(shè),能符合這些
基本假設(shè)的測量問題,即為真實(shí)分?jǐn)?shù)模式所探討的範(fàn)疇。
根據(jù)古典測驗(yàn)理論的假設(shè),受試者所具有的某種潛在特質(zhì),無法單由一次測驗(yàn)的實(shí)得分
數(shù)來表示,它必須由受試者在無數(shù)次測驗(yàn)上所得的實(shí)得分?jǐn)?shù),以其平均數(shù)來表示,該數(shù)值即
是受試者的潛在特質(zhì)之不偏估計(jì)值,即是前述的「真實(shí)分?jǐn)?shù)」;真實(shí)分?jǐn)?shù)的存在並不受測量次
數(shù)的影響,它代表長期測量結(jié)果「不變」的部份。而實(shí)際上,單獨(dú)一次測量所得的實(shí)得分?jǐn)?shù),
總會與真實(shí)分?jǐn)?shù)間產(chǎn)生一段差距,這段差距即稱作「隨機(jī)誤差分?jǐn)?shù)」(random error score),
或簡稱為「誤差」(error);誤差分?jǐn)?shù)深受測量工具之精確度的影響很大,它代表某次測量結(jié)
果「可變」的部份。若以數(shù)學(xué)公式來表示,這兩種分?jǐn)?shù)與實(shí)得分?jǐn)?shù)間的關(guān)係可以表示如下:
χ = t + e
其中,χ 代表實(shí)得分?jǐn)?shù), t 代表真實(shí)分?jǐn)?shù), e 代表誤差分?jǐn)?shù)。
古典測驗(yàn)理論即是建立在上述這種真實(shí)分?jǐn)?shù)模式及其假設(shè)的基礎(chǔ)上,針對測驗(yàn)資料間的
實(shí)證關(guān)係,進(jìn)行有系統(tǒng)解釋的一門學(xué)問。
壹、真實(shí)分?jǐn)?shù)理論的基本假設(shè)及其結(jié)論
真實(shí)分?jǐn)?shù)模式的成立,必須滿足一些基本假設(shè),這些基本假設(shè)就是真實(shí)分?jǐn)?shù)理論所賴以
建立的基礎(chǔ)。
真實(shí)分?jǐn)?shù)理論的基本假設(shè),可以歸納成下列七項(xiàng):
1. e t + = χ (即實(shí)得分?jǐn)?shù)等於真實(shí)分?jǐn)?shù)與誤差分?jǐn)?shù)之和);
2. t = Ε ) ( χ (即實(shí)得分?jǐn)?shù)的期望值等於真實(shí)分?jǐn)?shù));
3. 0 = te ρ (即真實(shí)分?jǐn)?shù)與誤差分?jǐn)?shù)之間呈零相關(guān));
4. 0 2 1 = e e ρ (即不同測驗(yàn)的誤差分?jǐn)?shù)間呈零相關(guān));
單元一
古典測驗(yàn)理論簡介
2006/9/15
3
5. 0 2 1 = t e
ρ (即不同測驗(yàn)的誤差分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間呈零相關(guān));
6. 假設(shè)有兩個(gè)測驗(yàn),其實(shí)得分?jǐn)?shù)分別為χ和' χ,並且滿足上述 1 到 5 的假設(shè),且對每一群
體考生而言,亦滿足 ' t t = 和'
2 2
e e σ σ = 等條件,則這兩個(gè)測驗(yàn)便稱作「複本測驗(yàn)」 (parallel
tests);
7. 假設(shè)有兩個(gè)測驗(yàn),其實(shí)得分?jǐn)?shù)分別為χ和' χ,並且滿足上述 1 到 5 的假設(shè),且對每一群
體考生而言,亦滿足 12 2 1 c t t + = ,其中 12 c 為一常數(shù),則這兩個(gè)測驗(yàn)稱作「本質(zhì)上τ相等測
驗(yàn)」(essentially τ-equivalent tests)。
根據(jù)上述七個(gè)基本假設(shè)的數(shù)學(xué)公式所示可知,古典測驗(yàn)理論對測量問題所持的觀點(diǎn),可
以做如下的詮釋:
1.假設(shè)具有潛在特質(zhì)存在。
從第一個(gè)假設(shè)可知,測量必須要有對象,此對象即是我們所假定的潛在特質(zhì)(亦即是t
所代表者),它是看不見的東西,但我們必須先假設(shè)它的存在,如此才值得我們?nèi)y量它,若
不先假設(shè)它是存在的,則我們的任何測量行為都將失卻目標(biāo),變得盲目無效。
2.多次測量的推論結(jié)果。
既然上述所假設(shè)的潛在特質(zhì)是看不見的,因此,我們就無法直接進(jìn)行測量它。我們僅能
從數(shù)學(xué)觀點(diǎn)去假設(shè)它與我們從外觀測量得到的數(shù)據(jù)間具有某種數(shù)學(xué)關(guān)係(通常都假設(shè)成直線
關(guān)係),為了釐清這種關(guān)係,通常需要使用多次的測量數(shù)據(jù),再透過統(tǒng)計(jì)學(xué)的估算(如:求期
望值),才能估計(jì)出這種潛在特質(zhì)的量到底是多少,並且推論出它與外觀測量得到的數(shù)據(jù)間具
有什麼關(guān)係。
3.單獨(dú)一次的測量必有誤差存在。
既然潛在特質(zhì)是經(jīng)由多次測量才推論得到,因此,單獨(dú)一次的測量結(jié)果,除了測量到所
要測量的潛在特質(zhì)外,也必定同時(shí)測量到誤差成份。但是,在經(jīng)過多次的測量後,我們由上
述說明所推論出來的結(jié)果將愈來愈接近真正的潛在特質(zhì),因此,這麼多次測量值所含的誤差
分?jǐn)?shù)也就可以彼此抵銷。這項(xiàng)結(jié)論也就是上述第一和第二個(gè)假設(shè)合併起來的推理結(jié)果。
4.假設(shè)潛在特質(zhì)與誤差之間是獨(dú)立的。
第四個(gè)假設(shè)把測量問題單純化,僅假設(shè)潛在特質(zhì)與誤差之間是獨(dú)立的。由於有這項(xiàng)假設(shè)
存在,在測量時(shí),我們不必考慮其他可能干擾測量結(jié)果的來源,僅將潛在特質(zhì)以外的干擾,
統(tǒng)統(tǒng)歸類到所謂的測量誤差(measurement errors),不再進(jìn)一步細(xì)部分析,如此,可以把測量
結(jié)果的推論問題單純化。附帶一提的是,這項(xiàng)假設(shè)亦延伸出第四和第五個(gè)假設(shè);但是,這種
把測量問題單純化的假設(shè),卻是造成古典測驗(yàn)理論飽受批評的地方。
5.複本測驗(yàn)的嚴(yán)格假設(shè)。
單元一
古典測驗(yàn)理論簡介
2006/9/15
4
古典測驗(yàn)理論對測量結(jié)果的解釋和比較,是建立在複本測驗(yàn)的嚴(yán)格假設(shè)上。換句話說,
從第六和第七個(gè)假設(shè)可知,唯有滿足複本測驗(yàn)之嚴(yán)格假設(shè)的兩個(gè)測量結(jié)果間,才可以直接進(jìn)
行比較大小和解釋優(yōu)劣;若非滿足此假設(shè),則任何兩次測量結(jié)果間的解釋和比較,均是無意
義的。
根據(jù)上述的詮釋,從真實(shí)分?jǐn)?shù)理論的基本假設(shè)可以推導(dǎo)出下列十八項(xiàng)結(jié)論,這些結(jié)論正
是古典測驗(yàn)理論的研究主題所賴以推理及演繹的依據(jù):
1. 0 ) ( = Ε e (即誤差分?jǐn)?shù)的期望值為零);
2. 0 ) , ( = = Ε et t e ρ (即誤差分?jǐn)?shù)與真實(shí)分?jǐn)?shù)之期望值為零);
3. e t x
2 2 2 σ σ σ + = (即實(shí)得分?jǐn)?shù)的變異數(shù)等於真實(shí)分?jǐn)?shù)的變異數(shù)與誤差分?jǐn)?shù)的變異數(shù)之和);
4. x t xt
2 2 2 σ σ ρ = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於真實(shí)分?jǐn)?shù)之變異數(shù)和實(shí)
得分?jǐn)?shù)之變異數(shù)的比值);
5. x e xt
2 2 2 1 σ σ ρ − = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於1減去誤差分?jǐn)?shù)之變
異數(shù)和實(shí)得分?jǐn)?shù)之變異數(shù)的比值);
6. '
2 2
x x σ σ = (即複本測驗(yàn)的實(shí)得分?jǐn)?shù)之變異數(shù)相同);
7. y x xy ' ρ ρ = (即複本測驗(yàn)分?jǐn)?shù)與另一變項(xiàng)分?jǐn)?shù)間的相關(guān)係數(shù)相同);
8. '
2
'
2 2 2
' x t x t xx σ σ σ σ ρ = = (即複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於其中一種測驗(yàn)之真實(shí)分?jǐn)?shù)
變異數(shù)和實(shí)得分?jǐn)?shù)變異數(shù)的比值);
9. x e xx
2 2
' 1 σ σ ρ − = (即複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於1減去誤差分?jǐn)?shù)之變異數(shù)和實(shí)得分
數(shù)之變異數(shù)的比值);
10. xe xx
2
' 1 ρ ρ − = (即複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於1減去實(shí)得分?jǐn)?shù)與誤差分?jǐn)?shù)間之相關(guān)
係數(shù)的平方);
11. '
2
xx xt ρ ρ = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係
數(shù));
12. '
2
xx t σ σ = (即真實(shí)分?jǐn)?shù)的變異數(shù)等於複本測驗(yàn)的實(shí)得分?jǐn)?shù)間之共變數(shù));
13. ) 1 ( '
2 2
xx x e ρ σ σ − = (即誤差分?jǐn)?shù)的變異數(shù)等於實(shí)得分?jǐn)?shù)的變異數(shù)乘以1減去複本測驗(yàn)間
之相關(guān)係數(shù));
14.
' ' yy xx
xy
t t y x ρ ρ
ρ
ρ = (即任兩個(gè)測驗(yàn)的真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)等於該二測驗(yàn)的實(shí)得分?jǐn)?shù)間
之相關(guān)係數(shù)除以該二測驗(yàn)之複本測驗(yàn)相關(guān)係數(shù)的相乘積之開根號);
單元一
古典測驗(yàn)理論簡介
2006/9/15
5
15. Y X t t N 2 2 2 σ σ = (即如果X為N個(gè)複本測驗(yàn)分?jǐn)?shù)Y之和,則X的真實(shí)分?jǐn)?shù)之變異數(shù)等於N
平方倍之Y的真實(shí)分?jǐn)?shù)之變異數(shù));
16. Y X e e N 2 2 2 σ σ = (即如果X為N個(gè)複本測驗(yàn)分?jǐn)?shù)Y之和,則X的誤差分?jǐn)?shù)之變異數(shù)等於N
平方倍之Y的誤差分?jǐn)?shù)之變異數(shù));
17.
'
'
' ) 1 ( 1 YY
YY
xx N
N
ρ
ρ
ρ
− +
= (即如果X為N個(gè)複本測驗(yàn)分?jǐn)?shù)Y之和,則此為 Spearman-Brown 的
折半信度公式);
18. 如果0 ' ≠ YY ρ ,則1 lim ' =
∞ → xx n
ρ (即X和Y的定義同結(jié)論15,如果' YY ρ 不等於0, 則' XX ρ 的
極限為1)。
整個(gè)古典測驗(yàn)理論便是以前述七項(xiàng)基本假設(shè),和推導(dǎo)出的十八項(xiàng)結(jié)論為基礎(chǔ),企圖去估
計(jì)測驗(yàn)內(nèi)(或測驗(yàn)間)實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間的關(guān)聯(lián)強(qiáng)度,這些關(guān)聯(lián)強(qiáng)度亦即是該理論所要
估計(jì)的各種可能信度係數(shù),故古典測驗(yàn)理論又有「古典信度理論」之稱。
除了信度估計(jì)之外,古典測驗(yàn)理論也還探討其他有關(guān)聯(lián)的話題,例如:效度(validity)、
測驗(yàn)編製(test construction)、常模(norm)、測驗(yàn)等化(test equating)、測驗(yàn)偏差(test bias)、
試題分析(item analysis)、精熟測驗(yàn)(mastery testing)、適性測驗(yàn)(adaptive testing)、題庫建
立(item banking)、及其在社會科學(xué)研究上的應(yīng)用課題等;這些課題都是根據(jù)它的基本假設(shè)
和推論延伸而來,並且散見於專書、會議論文、和下列各種重要學(xué)術(shù)期刊:
1. Annual Review of Psychology
2. Applied Psychological Measurement
3. The British Journal of Mathematical and Statistical Psychology(早期刊名:The British
Journal of Statistical Psychology)
4. Educational Measurement : Issues and Practice
5. Educational and Psychological Measurement
6. Journal of Educational Measurement
7. Journal of Educational Statistics
8. Psychometrika
9. 中華心理學(xué)刊
10. 測驗(yàn)?zāi)昕?br>11. 測驗(yàn)與輔導(dǎo)
12. 輔導(dǎo)月刊
13. 國內(nèi)各大學(xué)相關(guān)學(xué)報(bào)及教育領(lǐng)域?qū)W術(shù)期刊
貳、古典測驗(yàn)理論的優(yōu)缺點(diǎn)
單元一
古典測驗(yàn)理論簡介
2006/9/15
6
古典測驗(yàn)理論的理論架構(gòu),主要是以真實(shí)分?jǐn)?shù)模式為主,其理論模式的發(fā)展已為時(shí)甚久,
且頗具規(guī)模,所採用的計(jì)算公式簡單明瞭、淺顯易懂,適用於大多數(shù)的教育與心理測驗(yàn)情境,
以及社會科學(xué)研究資料的分析,為目前心理計(jì)量學(xué)界應(yīng)用與流通最廣的一種測驗(yàn)理論。
然而,若從當(dāng)代測驗(yàn)理論(以「試題反應(yīng)理論」為代表)的觀點(diǎn)來看,古典測驗(yàn)理論除
了具備上述各項(xiàng)優(yōu)點(diǎn)外,卻含有下列諸項(xiàng)缺失:
1.古典測驗(yàn)理論所採用的指標(biāo),諸如:難度(difficulty)、鑑別度(discrimination)、和信
度(reliability) 等,都是一種樣本依賴(sample dependent)的指標(biāo);也就是說,這些指標(biāo)
的獲得,會因?yàn)榻邮軠y驗(yàn)的受試者樣本的不同而不同,因此,針對不同潛在特質(zhì)的樣本,同
一份測驗(yàn)很難獲得一致的難度、鑑別度、或信度等指標(biāo)。
2.古典測驗(yàn)理論以一個(gè)共同的測量標(biāo)準(zhǔn)誤(standard error of measurement),作為每位受試
者的潛在特質(zhì)估計(jì)值的測量誤差指標(biāo);這種作法完全沒有考慮受試者反應(yīng)的個(gè)別差異,對於
具有高、低兩極端潛在特質(zhì)的受試者而言,這種指標(biāo)極為不合理且不精確,致使古典測驗(yàn)理
論模式的適當(dāng)性受到懷疑。
3.古典測驗(yàn)理論對於非複本(nonparallel),但功能相同的測驗(yàn)所獲得之量數(shù)間,無法提
供有意義的比較;有意義的比較僅侷限在相同測驗(yàn)的前後測量之量數(shù)或複本測驗(yàn)分?jǐn)?shù)之間而
已。
4.古典測驗(yàn)理論對信度的假設(shè),是建立在複本(parallel forms)測量概念的假設(shè)上;但是
這種假設(shè)在實(shí)際的測驗(yàn)情境裡,往往是不合理或不存在的。因?yàn)椋趯?shí)際的測驗(yàn)情境下,施
測者不可能要求每位受試者在接受同一份測驗(yàn)無數(shù)次後,而仍然保持每次反應(yīng)結(jié)果都彼此獨(dú)
立、互相不影響;況且,每一種測驗(yàn)並不一定在編製測驗(yàn)之時(shí)就同時(shí)製作複本。因此,複本
測量的理論假設(shè)是行不通的,不論是從實(shí)際層面或方法學(xué)邏輯的觀點(diǎn)來看,它的假設(shè)既不切
實(shí)際、又不合理、並且也是矛盾的。
5.古典測驗(yàn)理論忽視受試者作答的試題反應(yīng)組型(item response pattern)所代表的意義,
對於在原始得分上相同的受試者或正確反應(yīng)總和相同的試題,即看成是潛在特質(zhì)(如:能力)
或試題參數(shù)(如:難度)的估計(jì)值相同。這種觀點(diǎn)其實(shí)是不正確的,因?yàn)椋偡窒嗤氖茉?br>者或總和相同的試題,其試題反應(yīng)組型不見得會完全一致,因此,試題反應(yīng)組型所顯示的意
義也不會相同,所估算出的潛在特質(zhì)和試題參數(shù)估計(jì)值,應(yīng)該也會不一樣。
由於古典測驗(yàn)理論有上述諸項(xiàng)缺失,學(xué)者們?yōu)閺浹a(bǔ)這個(gè)理論上的缺失,乃轉(zhuǎn)向?qū)で罄碚?br>與方法均較嚴(yán)謹(jǐn)?shù)漠?dāng)代測驗(yàn)理論,於是才會有日後的「試題反應(yīng)理論」誕生。不過,由於古
典測驗(yàn)理論所採用的數(shù)學(xué)方法較為簡單易行,廣被中小學(xué)教師及一般大眾所能接受,在當(dāng)今
單元一
古典測驗(yàn)理論簡介
2006/9/15
7
實(shí)務(wù)應(yīng)用方面,古典測驗(yàn)理論的重要性仍佔(zhàn)有一席之地。
附錄 古典測驗(yàn)理論的重要參考專書
Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory. Monterey, CA:
Brooks/Cole.
Anastasi, A. (1988). Psychological testing (6th ed.). New York: Macmillan.
Berk, R. A. (Ed.) (1980). Criterion referenced measurement: The state of the art. Baltimore,
MD: Johns Hopkins University Press.
Berk, R. A. (Ed.) (1982). Handbook of methods for detecting test bias. Baltimore, MD: Johns
Hopkins University Press.
Berk, R. A. (Ed.) (1984). A guide to criterion referenced test construction. Baltimore, MD:
Johns Hopkins University Press.
Berk, R. A. (Ed.) (1986). Performance assessment: Methods and applications. Baltimore,
MD: Johns Hopkins University Press.
Cohen, R. J., Montague, P., Nathanson, L. S., & Swerdlik, M. E. (1988). Psychological testing:
An introduction to tests and measurement. Mountain View, CA: Mayfield.
Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. New York:
Holt, Rinehart & Winston.
Cronbach, L. J. (1990). Essentials of psychological testing (5th ed.). New York: Harper &
Row.
Cronbach, L. J., Gleser, G. C., Nanda, H., & Rajaratnam, N. (1972). The dependability of
behavioral measures: Theory of generalizability for scores and profiles. New York: John Wiley &
Sons.
Dick, W., & Hagerty, N. (1971). Topics in measurement: Reliability and validity. New York:
McGraw-Hill.
DuBois, P. H. (1970). A history of psychological testing. Boston, MA: Allyn & Bacon.
Ebel, R. L., & Frisbie, D. A. (1991). Essentials of educational measurement (5th ed.).
Englewood Cliffs, NJ: Prentice-Hall.
Fan, C. T. (1952). Item analysis table. Princeton, NJ: Educational Testing Service.
Gronlund, N. E. (1993). How to make achievement tests and assessments (5th ed.). Boston:
Allyn & Bacon.
Gronlund, N. E., & Linn, R. L. (1990). Measurement and evaluation in teaching (6th ed.).
New York: Macmillan.
Gulliksen, H. (1987). Theory of mental test. Hillsdale, NJ: Lawrence Erlbaum Associates.
(Originally published in 1950 by New York: John Wiley & Sons)
Haladyna, T. M. (1994). Developing and validating multiple-choice test items. Hillsdale, NJ:
單元一
古典測驗(yàn)理論簡介
2006/9/15
8
Lawrence Erlbaum Associates.
Hopkins, K. D., Stanley, J. C., & Hopkins, B. R. (1990). Educational and psychological
measurement and evaluation (7th ed.). Englewood Cliffs, NJ: Prentice Hall.
Jensen, A. R. (1980). Bias in mental testing. New York: The Free Press.
Kaplan, R. M., & Saccuzzo, D. P. (1993). Psychological testing: Principles, applications, and
issues (3rd ed.). Pacific Grove, CA: Brooks/Cole.
Kryspin, W. J., & Feldhusen, J. T. (1974). Developing classroom tests. Minneapolis, Minn:
Burgess.
Kubiszyn, T., & Borich, G. (1987). Educational testing and measurement: Classroom
application and practice (2nd ed.). Glenview, IL: Scott, Foresman & Company.
Lindquist, E. F. (Ed.) (1951). Educational measurement. Washington, DC: American Council
on Education.
Linn, R. L. (Ed.) (1989). Educational measurement (3rd ed.). Washington, DC: American
Council on Education.
Linn, R. L., & Gronlund, N. E. (2000). Measurement and assessment in teaching (8th ed.).
Upper Saddle River, NJ: Prentice-Hall.
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA:
Addison-Wesley.
Mehrens, W. A., & Lehmann, I. J. (1991). Measurement and evaluation in education and
psychology (4th ed.). New York: Holt, Rinehart & Winston.
Nitko, A. J. (1983). Educational tests and measurement. New York: Harcourt Brace
Jovanovich.
Nitko, A. J. (2001). Educational assessment of students (3rd ed.). Upper Saddle River, NJ:
Prentice-Hall.
Noll, V. H., Scannell, D. P., & Craig, R. C. (1979). Introduction to educational measurement
(4th ed.). Boston, MA: Houghton Mifflin.
Oosterhof, A. (2001). Classroom applications of educational measurement(3rd ed.). Upper
Saddle River, NJ: Prentice-Hall.
Osterlind, S. J. (1998). Constructing test items: Multiple-choice, constructed-response,
performance, and other formats(2nd ed.). Boston: Kluwer Academic Publishers.
Ory, J. C., & Ryan, K. E. (1993). Tips for improving testing and grading. Newbury Park, CA:
Sage.
Payne, D. A. (1992). Measuring and evaluating educational outcomes. New York:
Macmillian.
Popham, W. J. (1978). Criterion-referenced measurement. Englewood Cliffs, NJ:
Prentice-Hall.
Popham, W. J. (1990). Modern educational measurement: A practitioner's perspective (2nd
ed.). Englewood Cliffs, NJ: Prentice-Hall.
單元一
古典測驗(yàn)理論簡介
2006/9/15
9
Popham, W. J. (1999). Classroom assessment: What teachers need to know (2nd ed.). Boston:
Allyn & Bacon.
Priestly, M. (1982). Performance assessment in education and training: Alternative
techniques. Englewood Cliffs, NJ: Educational Technology Publications.
Sax, G. (1989). Principles of educational and psychological measurement and evaluation
(3rd ed.). Belmont, CA: Wadsworth.
Stiggins, R. J. (1994). Student-centered classroom assessment. New York: Macmillan.
Stiggins, R. J., & Conklin, N. F. (1992). In teacher's hands. Albany, NY: State University of
New York Press.
Suen, H. K. (1990). Principles of test theories. Hillsdale, NJ: Lawrence Erlbaum Associates.
Thorndike, R. M., Cunningham, G. K., Thorndike, R. L., & Hagen, E. P. (1991). Measurement
and evaluation in psychology and education (5th ed.). New York: Macmillan.
Tindal, G. A., & Marston, D. B. (1990). Classroom-based assessment. Columbus, OH: Charles
E. Merrill.
Wainer, H., & Braun, H. I. (Eds.) (1988). Test validity. Hillsdale, NJ: Lawrence Erlbaum
Associates.
Wiersma, W., & Jurs, S. G. (1990). Educational measurement and testing (2nd ed.). Boston:
Allyn & Bacon.
Worthen, B. R., Borg, W. R., & White, K. R. (1993). Measurement and evaluation in the
schools. New York: Longman.

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多