單元一
古典測驗(yàn)理論簡介 2006/9/15 1 古典測驗(yàn)理論 余民寧 教授 摘自「教育測驗(yàn)與評量:成就測驗(yàn)與教學(xué)評量」一書(2002,臺北,心理) 雖然根據(jù)歷史學(xué)家(DuBois, 1970)的描述,早在西元一千多年前科舉時(shí)代的中國,即 有能力測驗(yàn)(即科舉考試制度)的雛型產(chǎn)生。但是,對「測驗(yàn)」這門學(xué)問進(jìn)行科學(xué)化的量化 研究者,卻始於歐美各國,西風(fēng)東漸之後,才又傳入中國。 西元1905 年,Binet-Simon 在法國所發(fā)展的智力測驗(yàn),可以說是人類第一個(gè)客觀的心理 測驗(yàn),也是測驗(yàn)理論的真正濫觴。至此,這門專研心理測驗(yàn)與評量(psychological testing and assessment),內(nèi)含:量化心理學(xué)(quantitative psychology)、個(gè)別差異(individual differences)、 和心理測驗(yàn)理論(mental test theory)等研究範(fàn)圍的科學(xué),即稱為「心理計(jì)量學(xué)」(psychometrics) (或又譯成:「心理測驗(yàn)學(xué)」),正式確立。心理計(jì)量學(xué)的誕生,乃心理學(xué)者企圖將心理學(xué)發(fā)展 成為一門「量化的理性科學(xué)」(quantitative rational science)的結(jié)果,到目前為止,它雖然已 邁入不同的新紀(jì)元,但成長與茁壯的腳步,卻未曾停止過。 談到測驗(yàn)理論的發(fā)展,很多人喜歡以某某學(xué)派來作為區(qū)分,雖然這種分法不見得正確, 但為了討論方便起見,我們亦可以一本著作或一位人物,作為某個(gè)學(xué)派理論的開始或代表。 如此一來,我們大概可以將測驗(yàn)理論粗分為下列兩派: 1.古典測驗(yàn)理論(classical test theory,簡稱CTT):代表人物和作品分別為H. Gulliksen 的「Theory of mental test」(1950)。 2.試題反應(yīng)理論(item response theory,簡稱IRT):代表人物和作品分別為F. Lord 的 「Applications of item response theory to practical testing problems」(1980)。 底下,僅先就古典測驗(yàn)理論的重要內(nèi)涵做個(gè)扼要的評述,下一節(jié)再敘述試題反應(yīng)理論。 「古典測驗(yàn)理論」是最早的測驗(yàn)理論,至今,它仍然是最實(shí)用的測驗(yàn)理論,許多通用的 測驗(yàn)仍然是根據(jù)傳統(tǒng)方法來編製,並且建立起測驗(yàn)資料間的實(shí)證關(guān)係。古典測驗(yàn)理論也叫「古 典信度理論」(classical reliability theory),因?yàn)椋闹饕康氖窃诠烙?jì)某個(gè)測驗(yàn)實(shí)得分?jǐn)?shù) (observed score)的信度;亦即,它企圖估計(jì)實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)(true score)間的關(guān)聯(lián)程 度。因此,有時(shí)候它又稱作「真實(shí)分?jǐn)?shù)理論」(true score theory), 因?yàn)樗睦碚搧碓炊际墙?br>立在以「真實(shí)分?jǐn)?shù)模式」(true score model)為名的數(shù)學(xué)模式基礎(chǔ)上。 當(dāng)某位受試者接受一份測驗(yàn)的施測後,他(或她)在該測驗(yàn)上的得分(即「實(shí)得分?jǐn)?shù)」), 即代表在某些特定的情境下,他(或她)在這些試題樣本上的能力(ability)。 當(dāng)然,有許 多因素會影響受試者在測驗(yàn)上的表現(xiàn)。即使在內(nèi)容範(fàn)圍相同但試題樣本不同的條件下,或在 不同的時(shí)間、主測者、與施測情境條件下,受試者的表現(xiàn)也都有可能會不一樣。因此,如果 單元一 古典測驗(yàn)理論簡介 2006/9/15 2 我們在所有可能的施測情境下、在所有可能的不同時(shí)間範(fàn)圍內(nèi)、或儘可能使用不同試題樣本, 來針對同一位受試者進(jìn)行同樣的測驗(yàn)多次(理論上是無窮多次),則我們可以獲得許多有關(guān)該 受試者的實(shí)得分?jǐn)?shù)。這些實(shí)得分?jǐn)?shù)的平均數(shù)(又稱為期望值(expected value)),即代表該受 試者能力的不偏估計(jì)值(unbiased estimate),該估計(jì)值即被定義為「真實(shí)分?jǐn)?shù)」。因此,所謂 的「真實(shí)分?jǐn)?shù)模式」,即是指一種直線關(guān)係的數(shù)學(xué)模式(linear model),用來表示任何可以觀 察到、測量到的實(shí)得分?jǐn)?shù)(又簡稱為觀察值或測量值)皆由下列兩個(gè)部份所構(gòu)成的一種數(shù)學(xué) 涵數(shù)關(guān)係,這兩個(gè)部份分別是:一為觀察不到,但代表研究者真正想要去測量的潛在特質(zhì) (latent trait)部份,叫作「真實(shí)分?jǐn)?shù)」;另一為觀察不到,且不代表潛在特質(zhì),卻是研究者 想要極力去避免或設(shè)法降低的部份,叫作「誤差分?jǐn)?shù)」(error score)。這兩個(gè)部份合併構(gòu)成任 何一個(gè)真實(shí)的測量值(即實(shí)得分?jǐn)?shù)),並且彼此之間具有及延伸出多種基本假設(shè),能符合這些 基本假設(shè)的測量問題,即為真實(shí)分?jǐn)?shù)模式所探討的範(fàn)疇。 根據(jù)古典測驗(yàn)理論的假設(shè),受試者所具有的某種潛在特質(zhì),無法單由一次測驗(yàn)的實(shí)得分 數(shù)來表示,它必須由受試者在無數(shù)次測驗(yàn)上所得的實(shí)得分?jǐn)?shù),以其平均數(shù)來表示,該數(shù)值即 是受試者的潛在特質(zhì)之不偏估計(jì)值,即是前述的「真實(shí)分?jǐn)?shù)」;真實(shí)分?jǐn)?shù)的存在並不受測量次 數(shù)的影響,它代表長期測量結(jié)果「不變」的部份。而實(shí)際上,單獨(dú)一次測量所得的實(shí)得分?jǐn)?shù), 總會與真實(shí)分?jǐn)?shù)間產(chǎn)生一段差距,這段差距即稱作「隨機(jī)誤差分?jǐn)?shù)」(random error score), 或簡稱為「誤差」(error);誤差分?jǐn)?shù)深受測量工具之精確度的影響很大,它代表某次測量結(jié) 果「可變」的部份。若以數(shù)學(xué)公式來表示,這兩種分?jǐn)?shù)與實(shí)得分?jǐn)?shù)間的關(guān)係可以表示如下: χ = t + e 其中,χ 代表實(shí)得分?jǐn)?shù), t 代表真實(shí)分?jǐn)?shù), e 代表誤差分?jǐn)?shù)。 古典測驗(yàn)理論即是建立在上述這種真實(shí)分?jǐn)?shù)模式及其假設(shè)的基礎(chǔ)上,針對測驗(yàn)資料間的 實(shí)證關(guān)係,進(jìn)行有系統(tǒng)解釋的一門學(xué)問。 壹、真實(shí)分?jǐn)?shù)理論的基本假設(shè)及其結(jié)論 真實(shí)分?jǐn)?shù)模式的成立,必須滿足一些基本假設(shè),這些基本假設(shè)就是真實(shí)分?jǐn)?shù)理論所賴以 建立的基礎(chǔ)。 真實(shí)分?jǐn)?shù)理論的基本假設(shè),可以歸納成下列七項(xiàng): 1. e t + = χ (即實(shí)得分?jǐn)?shù)等於真實(shí)分?jǐn)?shù)與誤差分?jǐn)?shù)之和); 2. t = Ε ) ( χ (即實(shí)得分?jǐn)?shù)的期望值等於真實(shí)分?jǐn)?shù)); 3. 0 = te ρ (即真實(shí)分?jǐn)?shù)與誤差分?jǐn)?shù)之間呈零相關(guān)); 4. 0 2 1 = e e ρ (即不同測驗(yàn)的誤差分?jǐn)?shù)間呈零相關(guān)); 單元一 古典測驗(yàn)理論簡介 2006/9/15 3 5. 0 2 1 = t e ρ (即不同測驗(yàn)的誤差分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間呈零相關(guān)); 6. 假設(shè)有兩個(gè)測驗(yàn),其實(shí)得分?jǐn)?shù)分別為χ和' χ,並且滿足上述 1 到 5 的假設(shè),且對每一群 體考生而言,亦滿足 ' t t = 和' 2 2 e e σ σ = 等條件,則這兩個(gè)測驗(yàn)便稱作「複本測驗(yàn)」 (parallel tests); 7. 假設(shè)有兩個(gè)測驗(yàn),其實(shí)得分?jǐn)?shù)分別為χ和' χ,並且滿足上述 1 到 5 的假設(shè),且對每一群 體考生而言,亦滿足 12 2 1 c t t + = ,其中 12 c 為一常數(shù),則這兩個(gè)測驗(yàn)稱作「本質(zhì)上τ相等測 驗(yàn)」(essentially τ-equivalent tests)。 根據(jù)上述七個(gè)基本假設(shè)的數(shù)學(xué)公式所示可知,古典測驗(yàn)理論對測量問題所持的觀點(diǎn),可 以做如下的詮釋: 1.假設(shè)具有潛在特質(zhì)存在。 從第一個(gè)假設(shè)可知,測量必須要有對象,此對象即是我們所假定的潛在特質(zhì)(亦即是t 所代表者),它是看不見的東西,但我們必須先假設(shè)它的存在,如此才值得我們?nèi)y量它,若 不先假設(shè)它是存在的,則我們的任何測量行為都將失卻目標(biāo),變得盲目無效。 2.多次測量的推論結(jié)果。 既然上述所假設(shè)的潛在特質(zhì)是看不見的,因此,我們就無法直接進(jìn)行測量它。我們僅能 從數(shù)學(xué)觀點(diǎn)去假設(shè)它與我們從外觀測量得到的數(shù)據(jù)間具有某種數(shù)學(xué)關(guān)係(通常都假設(shè)成直線 關(guān)係),為了釐清這種關(guān)係,通常需要使用多次的測量數(shù)據(jù),再透過統(tǒng)計(jì)學(xué)的估算(如:求期 望值),才能估計(jì)出這種潛在特質(zhì)的量到底是多少,並且推論出它與外觀測量得到的數(shù)據(jù)間具 有什麼關(guān)係。 3.單獨(dú)一次的測量必有誤差存在。 既然潛在特質(zhì)是經(jīng)由多次測量才推論得到,因此,單獨(dú)一次的測量結(jié)果,除了測量到所 要測量的潛在特質(zhì)外,也必定同時(shí)測量到誤差成份。但是,在經(jīng)過多次的測量後,我們由上 述說明所推論出來的結(jié)果將愈來愈接近真正的潛在特質(zhì),因此,這麼多次測量值所含的誤差 分?jǐn)?shù)也就可以彼此抵銷。這項(xiàng)結(jié)論也就是上述第一和第二個(gè)假設(shè)合併起來的推理結(jié)果。 4.假設(shè)潛在特質(zhì)與誤差之間是獨(dú)立的。 第四個(gè)假設(shè)把測量問題單純化,僅假設(shè)潛在特質(zhì)與誤差之間是獨(dú)立的。由於有這項(xiàng)假設(shè) 存在,在測量時(shí),我們不必考慮其他可能干擾測量結(jié)果的來源,僅將潛在特質(zhì)以外的干擾, 統(tǒng)統(tǒng)歸類到所謂的測量誤差(measurement errors),不再進(jìn)一步細(xì)部分析,如此,可以把測量 結(jié)果的推論問題單純化。附帶一提的是,這項(xiàng)假設(shè)亦延伸出第四和第五個(gè)假設(shè);但是,這種 把測量問題單純化的假設(shè),卻是造成古典測驗(yàn)理論飽受批評的地方。 5.複本測驗(yàn)的嚴(yán)格假設(shè)。 單元一 古典測驗(yàn)理論簡介 2006/9/15 4 古典測驗(yàn)理論對測量結(jié)果的解釋和比較,是建立在複本測驗(yàn)的嚴(yán)格假設(shè)上。換句話說, 從第六和第七個(gè)假設(shè)可知,唯有滿足複本測驗(yàn)之嚴(yán)格假設(shè)的兩個(gè)測量結(jié)果間,才可以直接進(jìn) 行比較大小和解釋優(yōu)劣;若非滿足此假設(shè),則任何兩次測量結(jié)果間的解釋和比較,均是無意 義的。 根據(jù)上述的詮釋,從真實(shí)分?jǐn)?shù)理論的基本假設(shè)可以推導(dǎo)出下列十八項(xiàng)結(jié)論,這些結(jié)論正 是古典測驗(yàn)理論的研究主題所賴以推理及演繹的依據(jù): 1. 0 ) ( = Ε e (即誤差分?jǐn)?shù)的期望值為零); 2. 0 ) , ( = = Ε et t e ρ (即誤差分?jǐn)?shù)與真實(shí)分?jǐn)?shù)之期望值為零); 3. e t x 2 2 2 σ σ σ + = (即實(shí)得分?jǐn)?shù)的變異數(shù)等於真實(shí)分?jǐn)?shù)的變異數(shù)與誤差分?jǐn)?shù)的變異數(shù)之和); 4. x t xt 2 2 2 σ σ ρ = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於真實(shí)分?jǐn)?shù)之變異數(shù)和實(shí) 得分?jǐn)?shù)之變異數(shù)的比值); 5. x e xt 2 2 2 1 σ σ ρ − = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於1減去誤差分?jǐn)?shù)之變 異數(shù)和實(shí)得分?jǐn)?shù)之變異數(shù)的比值); 6. ' 2 2 x x σ σ = (即複本測驗(yàn)的實(shí)得分?jǐn)?shù)之變異數(shù)相同); 7. y x xy ' ρ ρ = (即複本測驗(yàn)分?jǐn)?shù)與另一變項(xiàng)分?jǐn)?shù)間的相關(guān)係數(shù)相同); 8. ' 2 ' 2 2 2 ' x t x t xx σ σ σ σ ρ = = (即複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於其中一種測驗(yàn)之真實(shí)分?jǐn)?shù) 變異數(shù)和實(shí)得分?jǐn)?shù)變異數(shù)的比值); 9. x e xx 2 2 ' 1 σ σ ρ − = (即複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於1減去誤差分?jǐn)?shù)之變異數(shù)和實(shí)得分 數(shù)之變異數(shù)的比值); 10. xe xx 2 ' 1 ρ ρ − = (即複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於1減去實(shí)得分?jǐn)?shù)與誤差分?jǐn)?shù)間之相關(guān) 係數(shù)的平方); 11. ' 2 xx xt ρ ρ = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於複本測驗(yàn)分?jǐn)?shù)間的相關(guān)係 數(shù)); 12. ' 2 xx t σ σ = (即真實(shí)分?jǐn)?shù)的變異數(shù)等於複本測驗(yàn)的實(shí)得分?jǐn)?shù)間之共變數(shù)); 13. ) 1 ( ' 2 2 xx x e ρ σ σ − = (即誤差分?jǐn)?shù)的變異數(shù)等於實(shí)得分?jǐn)?shù)的變異數(shù)乘以1減去複本測驗(yàn)間 之相關(guān)係數(shù)); 14. ' ' yy xx xy t t y x ρ ρ ρ ρ = (即任兩個(gè)測驗(yàn)的真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)等於該二測驗(yàn)的實(shí)得分?jǐn)?shù)間 之相關(guān)係數(shù)除以該二測驗(yàn)之複本測驗(yàn)相關(guān)係數(shù)的相乘積之開根號); 單元一 古典測驗(yàn)理論簡介 2006/9/15 5 15. Y X t t N 2 2 2 σ σ = (即如果X為N個(gè)複本測驗(yàn)分?jǐn)?shù)Y之和,則X的真實(shí)分?jǐn)?shù)之變異數(shù)等於N 平方倍之Y的真實(shí)分?jǐn)?shù)之變異數(shù)); 16. Y X e e N 2 2 2 σ σ = (即如果X為N個(gè)複本測驗(yàn)分?jǐn)?shù)Y之和,則X的誤差分?jǐn)?shù)之變異數(shù)等於N 平方倍之Y的誤差分?jǐn)?shù)之變異數(shù)); 17. ' ' ' ) 1 ( 1 YY YY xx N N ρ ρ ρ − + = (即如果X為N個(gè)複本測驗(yàn)分?jǐn)?shù)Y之和,則此為 Spearman-Brown 的 折半信度公式); 18. 如果0 ' ≠ YY ρ ,則1 lim ' = ∞ → xx n ρ (即X和Y的定義同結(jié)論15,如果' YY ρ 不等於0, 則' XX ρ 的 極限為1)。 整個(gè)古典測驗(yàn)理論便是以前述七項(xiàng)基本假設(shè),和推導(dǎo)出的十八項(xiàng)結(jié)論為基礎(chǔ),企圖去估 計(jì)測驗(yàn)內(nèi)(或測驗(yàn)間)實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間的關(guān)聯(lián)強(qiáng)度,這些關(guān)聯(lián)強(qiáng)度亦即是該理論所要 估計(jì)的各種可能信度係數(shù),故古典測驗(yàn)理論又有「古典信度理論」之稱。 除了信度估計(jì)之外,古典測驗(yàn)理論也還探討其他有關(guān)聯(lián)的話題,例如:效度(validity)、 測驗(yàn)編製(test construction)、常模(norm)、測驗(yàn)等化(test equating)、測驗(yàn)偏差(test bias)、 試題分析(item analysis)、精熟測驗(yàn)(mastery testing)、適性測驗(yàn)(adaptive testing)、題庫建 立(item banking)、及其在社會科學(xué)研究上的應(yīng)用課題等;這些課題都是根據(jù)它的基本假設(shè) 和推論延伸而來,並且散見於專書、會議論文、和下列各種重要學(xué)術(shù)期刊: 1. Annual Review of Psychology 2. Applied Psychological Measurement 3. The British Journal of Mathematical and Statistical Psychology(早期刊名:The British Journal of Statistical Psychology) 4. Educational Measurement : Issues and Practice 5. Educational and Psychological Measurement 6. Journal of Educational Measurement 7. Journal of Educational Statistics 8. Psychometrika 9. 中華心理學(xué)刊 10. 測驗(yàn)?zāi)昕?br>11. 測驗(yàn)與輔導(dǎo) 12. 輔導(dǎo)月刊 13. 國內(nèi)各大學(xué)相關(guān)學(xué)報(bào)及教育領(lǐng)域?qū)W術(shù)期刊 貳、古典測驗(yàn)理論的優(yōu)缺點(diǎn) 單元一 古典測驗(yàn)理論簡介 2006/9/15 6 古典測驗(yàn)理論的理論架構(gòu),主要是以真實(shí)分?jǐn)?shù)模式為主,其理論模式的發(fā)展已為時(shí)甚久, 且頗具規(guī)模,所採用的計(jì)算公式簡單明瞭、淺顯易懂,適用於大多數(shù)的教育與心理測驗(yàn)情境, 以及社會科學(xué)研究資料的分析,為目前心理計(jì)量學(xué)界應(yīng)用與流通最廣的一種測驗(yàn)理論。 然而,若從當(dāng)代測驗(yàn)理論(以「試題反應(yīng)理論」為代表)的觀點(diǎn)來看,古典測驗(yàn)理論除 了具備上述各項(xiàng)優(yōu)點(diǎn)外,卻含有下列諸項(xiàng)缺失: 1.古典測驗(yàn)理論所採用的指標(biāo),諸如:難度(difficulty)、鑑別度(discrimination)、和信 度(reliability) 等,都是一種樣本依賴(sample dependent)的指標(biāo);也就是說,這些指標(biāo) 的獲得,會因?yàn)榻邮軠y驗(yàn)的受試者樣本的不同而不同,因此,針對不同潛在特質(zhì)的樣本,同 一份測驗(yàn)很難獲得一致的難度、鑑別度、或信度等指標(biāo)。 2.古典測驗(yàn)理論以一個(gè)共同的測量標(biāo)準(zhǔn)誤(standard error of measurement),作為每位受試 者的潛在特質(zhì)估計(jì)值的測量誤差指標(biāo);這種作法完全沒有考慮受試者反應(yīng)的個(gè)別差異,對於 具有高、低兩極端潛在特質(zhì)的受試者而言,這種指標(biāo)極為不合理且不精確,致使古典測驗(yàn)理 論模式的適當(dāng)性受到懷疑。 3.古典測驗(yàn)理論對於非複本(nonparallel),但功能相同的測驗(yàn)所獲得之量數(shù)間,無法提 供有意義的比較;有意義的比較僅侷限在相同測驗(yàn)的前後測量之量數(shù)或複本測驗(yàn)分?jǐn)?shù)之間而 已。 4.古典測驗(yàn)理論對信度的假設(shè),是建立在複本(parallel forms)測量概念的假設(shè)上;但是 這種假設(shè)在實(shí)際的測驗(yàn)情境裡,往往是不合理或不存在的。因?yàn)椋趯?shí)際的測驗(yàn)情境下,施 測者不可能要求每位受試者在接受同一份測驗(yàn)無數(shù)次後,而仍然保持每次反應(yīng)結(jié)果都彼此獨(dú) 立、互相不影響;況且,每一種測驗(yàn)並不一定在編製測驗(yàn)之時(shí)就同時(shí)製作複本。因此,複本 測量的理論假設(shè)是行不通的,不論是從實(shí)際層面或方法學(xué)邏輯的觀點(diǎn)來看,它的假設(shè)既不切 實(shí)際、又不合理、並且也是矛盾的。 5.古典測驗(yàn)理論忽視受試者作答的試題反應(yīng)組型(item response pattern)所代表的意義, 對於在原始得分上相同的受試者或正確反應(yīng)總和相同的試題,即看成是潛在特質(zhì)(如:能力) 或試題參數(shù)(如:難度)的估計(jì)值相同。這種觀點(diǎn)其實(shí)是不正確的,因?yàn)椋偡窒嗤氖茉?br>者或總和相同的試題,其試題反應(yīng)組型不見得會完全一致,因此,試題反應(yīng)組型所顯示的意 義也不會相同,所估算出的潛在特質(zhì)和試題參數(shù)估計(jì)值,應(yīng)該也會不一樣。 由於古典測驗(yàn)理論有上述諸項(xiàng)缺失,學(xué)者們?yōu)閺浹a(bǔ)這個(gè)理論上的缺失,乃轉(zhuǎn)向?qū)で罄碚?br>與方法均較嚴(yán)謹(jǐn)?shù)漠?dāng)代測驗(yàn)理論,於是才會有日後的「試題反應(yīng)理論」誕生。不過,由於古 典測驗(yàn)理論所採用的數(shù)學(xué)方法較為簡單易行,廣被中小學(xué)教師及一般大眾所能接受,在當(dāng)今 單元一 古典測驗(yàn)理論簡介 2006/9/15 7 實(shí)務(wù)應(yīng)用方面,古典測驗(yàn)理論的重要性仍佔(zhàn)有一席之地。 附錄 古典測驗(yàn)理論的重要參考專書 Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory. Monterey, CA: Brooks/Cole. Anastasi, A. (1988). Psychological testing (6th ed.). New York: Macmillan. Berk, R. A. (Ed.) (1980). Criterion referenced measurement: The state of the art. Baltimore, MD: Johns Hopkins University Press. Berk, R. A. (Ed.) (1982). Handbook of methods for detecting test bias. Baltimore, MD: Johns Hopkins University Press. Berk, R. A. (Ed.) (1984). A guide to criterion referenced test construction. Baltimore, MD: Johns Hopkins University Press. Berk, R. A. (Ed.) (1986). Performance assessment: Methods and applications. Baltimore, MD: Johns Hopkins University Press. Cohen, R. J., Montague, P., Nathanson, L. S., & Swerdlik, M. E. (1988). Psychological testing: An introduction to tests and measurement. Mountain View, CA: Mayfield. Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. New York: Holt, Rinehart & Winston. Cronbach, L. J. (1990). Essentials of psychological testing (5th ed.). New York: Harper & Row. Cronbach, L. J., Gleser, G. C., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measures: Theory of generalizability for scores and profiles. New York: John Wiley & Sons. Dick, W., & Hagerty, N. (1971). Topics in measurement: Reliability and validity. New York: McGraw-Hill. DuBois, P. H. (1970). A history of psychological testing. Boston, MA: Allyn & Bacon. Ebel, R. L., & Frisbie, D. A. (1991). Essentials of educational measurement (5th ed.). Englewood Cliffs, NJ: Prentice-Hall. Fan, C. T. (1952). Item analysis table. Princeton, NJ: Educational Testing Service. Gronlund, N. E. (1993). How to make achievement tests and assessments (5th ed.). Boston: Allyn & Bacon. Gronlund, N. E., & Linn, R. L. (1990). Measurement and evaluation in teaching (6th ed.). New York: Macmillan. Gulliksen, H. (1987). Theory of mental test. Hillsdale, NJ: Lawrence Erlbaum Associates. (Originally published in 1950 by New York: John Wiley & Sons) Haladyna, T. M. (1994). Developing and validating multiple-choice test items. Hillsdale, NJ: 單元一 古典測驗(yàn)理論簡介 2006/9/15 8 Lawrence Erlbaum Associates. Hopkins, K. D., Stanley, J. C., & Hopkins, B. R. (1990). Educational and psychological measurement and evaluation (7th ed.). Englewood Cliffs, NJ: Prentice Hall. Jensen, A. R. (1980). Bias in mental testing. New York: The Free Press. Kaplan, R. M., & Saccuzzo, D. P. (1993). Psychological testing: Principles, applications, and issues (3rd ed.). Pacific Grove, CA: Brooks/Cole. Kryspin, W. J., & Feldhusen, J. T. (1974). Developing classroom tests. Minneapolis, Minn: Burgess. Kubiszyn, T., & Borich, G. (1987). Educational testing and measurement: Classroom application and practice (2nd ed.). Glenview, IL: Scott, Foresman & Company. Lindquist, E. F. (Ed.) (1951). Educational measurement. Washington, DC: American Council on Education. Linn, R. L. (Ed.) (1989). Educational measurement (3rd ed.). Washington, DC: American Council on Education. Linn, R. L., & Gronlund, N. E. (2000). Measurement and assessment in teaching (8th ed.). Upper Saddle River, NJ: Prentice-Hall. Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. Mehrens, W. A., & Lehmann, I. J. (1991). Measurement and evaluation in education and psychology (4th ed.). New York: Holt, Rinehart & Winston. Nitko, A. J. (1983). Educational tests and measurement. New York: Harcourt Brace Jovanovich. Nitko, A. J. (2001). Educational assessment of students (3rd ed.). Upper Saddle River, NJ: Prentice-Hall. Noll, V. H., Scannell, D. P., & Craig, R. C. (1979). Introduction to educational measurement (4th ed.). Boston, MA: Houghton Mifflin. Oosterhof, A. (2001). Classroom applications of educational measurement(3rd ed.). Upper Saddle River, NJ: Prentice-Hall. Osterlind, S. J. (1998). Constructing test items: Multiple-choice, constructed-response, performance, and other formats(2nd ed.). Boston: Kluwer Academic Publishers. Ory, J. C., & Ryan, K. E. (1993). Tips for improving testing and grading. Newbury Park, CA: Sage. Payne, D. A. (1992). Measuring and evaluating educational outcomes. New York: Macmillian. Popham, W. J. (1978). Criterion-referenced measurement. Englewood Cliffs, NJ: Prentice-Hall. Popham, W. J. (1990). Modern educational measurement: A practitioner's perspective (2nd ed.). Englewood Cliffs, NJ: Prentice-Hall. 單元一 古典測驗(yàn)理論簡介 2006/9/15 9 Popham, W. J. (1999). Classroom assessment: What teachers need to know (2nd ed.). Boston: Allyn & Bacon. Priestly, M. (1982). Performance assessment in education and training: Alternative techniques. Englewood Cliffs, NJ: Educational Technology Publications. Sax, G. (1989). Principles of educational and psychological measurement and evaluation (3rd ed.). Belmont, CA: Wadsworth. Stiggins, R. J. (1994). Student-centered classroom assessment. New York: Macmillan. Stiggins, R. J., & Conklin, N. F. (1992). In teacher's hands. Albany, NY: State University of New York Press. Suen, H. K. (1990). Principles of test theories. Hillsdale, NJ: Lawrence Erlbaum Associates. Thorndike, R. M., Cunningham, G. K., Thorndike, R. L., & Hagen, E. P. (1991). Measurement and evaluation in psychology and education (5th ed.). New York: Macmillan. Tindal, G. A., & Marston, D. B. (1990). Classroom-based assessment. Columbus, OH: Charles E. Merrill. Wainer, H., & Braun, H. I. (Eds.) (1988). Test validity. Hillsdale, NJ: Lawrence Erlbaum Associates. Wiersma, W., & Jurs, S. G. (1990). Educational measurement and testing (2nd ed.). Boston: Allyn & Bacon. Worthen, B. R., Borg, W. R., & White, K. R. (1993). Measurement and evaluation in the schools. New York: Longman. |
|