信度分析，如何設(shè)計(jì)考試卷

wallance 2007-07-11

展開全文

（一）信度

1 、信度的含義

測驗(yàn)的信度又稱測驗(yàn)的可靠性 , 是指同一個(gè)測驗(yàn)對同一組被試施測兩次或多次 , 所得結(jié)果一致形程度。一個(gè)好的測驗(yàn)必須是穩(wěn)定可靠的 , 多次使用所獲得的結(jié)果是前后一致的。例如 , 用直尺測量長度 , 其結(jié)果是穩(wěn)定可靠的 ; 用橡皮筋測長度則是不可靠的 , 前后測量結(jié)果缺乏一致性。在測量理論中 , 信度被定義為 : 某次測驗(yàn)分?jǐn)?shù)的真變異數(shù)與總變異數(shù) ( 即實(shí)測分?jǐn)?shù) ) 之比 :

           ST 2

Rxx= ───

           Sx 2

式中 Rxx 表示測量的信度 ,ST 2 代表真分?jǐn)?shù)的變異數(shù) ( 方差 ),Sx 2 表示實(shí)得分?jǐn)?shù)的變異數(shù) ( 方差 ) 。

從上式可看出 , （ 1 ）信度是指實(shí)測值和真值相差的程度 , 實(shí)測值是指對某物實(shí)際進(jìn)行測量時(shí)所獲得值 , 也稱實(shí)測分?jǐn)?shù) (X); 真值是指被測事物的真實(shí)規(guī)模取值 , 也稱真分?jǐn)?shù) (T) 。由于各種原因 , 實(shí)得分?jǐn)?shù)常不等于真分?jǐn)?shù) , 兩者之差稱為測量誤差或誤差分?jǐn)?shù) (E) 。從理論上看 , 實(shí)得分?jǐn)?shù)由真分?jǐn)?shù)和誤差分?jǐn)?shù)兩部分組成即 :

        X=T+E

    Rxx 就是對一組測驗(yàn)數(shù)據(jù)的實(shí)測分?jǐn)?shù)與真分?jǐn)?shù)相差程度的最好估計(jì)。

（ 2 ）信度又是指相同的測驗(yàn)對相同的被試再次測量時(shí)引起的同樣反應(yīng)的程度。如果兩次測驗(yàn)中 , 受測者所得分?jǐn)?shù)或所處等級前后一致 , 則說明測驗(yàn)結(jié)果的信度較高 ; 反之 , 兩次測驗(yàn)結(jié)果一致性低 , 說明測驗(yàn)結(jié)果的信度低。

信度是任何一種測量的必要條件 ( 但不是唯一條件 ), 只有測量值接近或等于真值 , 用同一工具多次測量同一特性獲得相同或相近的結(jié)果 , 才能認(rèn)為這個(gè)測量結(jié)果是可靠的。信度對于教育測量尤其重要 , 只有信度高的教育測驗(yàn)才能成為教育工作者有用的工具 , 才能為教育工作者提供可靠的信息 , 為教育預(yù)測和決策提供客觀依據(jù)。

2 、信度的估計(jì)方法

     測驗(yàn)的信度是用信度系數(shù)的大小來表示的 , 根據(jù)測量理論 , 信度系數(shù)

               ST 2

    Rxx= ─── ,

             Sx 2

但是在實(shí)際測量中 , 一般只能獲得實(shí)得分?jǐn)?shù) (X) 及實(shí)得變異數(shù) (Sx 2 ), 而真分?jǐn)?shù) (T) 及真變異數(shù) (ST 2 ) 是不知道的 , 因此 , 依據(jù)上述公式還無法機(jī)算信度系數(shù)。在統(tǒng)計(jì)上 , 主要采用相關(guān)分析的方法即機(jī)算兩列變量的相關(guān)系數(shù) , 用相關(guān)系數(shù)的大小來表示信度的高低。主要用以下方法來求得信度 :

（ 1 ）再測法 : 用同一測驗(yàn)對同一被試 , 前后施測兩次 , 根據(jù)兩次測驗(yàn)分?jǐn)?shù)計(jì)算相關(guān)系數(shù) , 即是再測信度。該信度反映了測驗(yàn)的穩(wěn)定性程度 , 故又稱穩(wěn)定性系數(shù) , 是用皮爾遜積差相關(guān)公式計(jì)算的 :

                         ∑ X 1 X 2 /N-M1M2

                 Rxx= ─────────────

                             S 1 · S 2

     式中 X 1 .X 2 為同一被試的兩次測驗(yàn)得分 ,M1.M2 為兩次測驗(yàn)的平均分?jǐn)?shù) ,S 1 .S 2 是兩次測驗(yàn)的標(biāo)準(zhǔn)差 ,N 是被試人數(shù)。

用再測法估計(jì)信度 , 可以得到有關(guān)測驗(yàn)結(jié)果是否隨時(shí)間而變化及變化程度的資料 , 可以作為預(yù)測被測者將來行為表現(xiàn)的依據(jù)。但也存在明顯的局限性 : 前后兩次測驗(yàn)結(jié)果易受到練習(xí)和記憶的影響 , 前后兩次施測的時(shí)間間隔影響穩(wěn)定性系數(shù) , 特別是對學(xué)績測驗(yàn)的影響較大。如果時(shí)間間隔太長 , 被測者的身心因受環(huán)境影響將發(fā)生大的變化 , 從而對第二次施測結(jié)果產(chǎn)生較大影響 , 使穩(wěn)定性系數(shù)降低 ; 如果間隔太短 , 則被試第一次完成測驗(yàn)時(shí)練習(xí)和記憶會(huì)對第二次測驗(yàn)產(chǎn)生較大影響 , 使第二次測驗(yàn)性質(zhì)發(fā)生變化。另外 , 有些測驗(yàn)不宜用再測法估計(jì)信度 , 如測量創(chuàng)造力測驗(yàn) , 被試一旦掌握了解決問題的辦法、原則 , 重測時(shí) , 他將很容易作出反應(yīng) , 這樣測驗(yàn)的性質(zhì)就發(fā)生了改變。因此 , 只有在沒有復(fù)本可用 , 測驗(yàn)不易受重復(fù)使用影響 , 現(xiàn)實(shí)條件又允許重復(fù)施測的情況下才使用重測法估計(jì)信度。

用重測法估計(jì)信度 , 間隔時(shí)間長短沒有嚴(yán)格的規(guī)定 , 一般說 , 間隔時(shí)間越長 , 穩(wěn)定性系數(shù)越低 , 最適宜的時(shí)距應(yīng)根據(jù)測驗(yàn)?zāi)康摹?性質(zhì)及被試特點(diǎn)而定 , 最好不超過六個(gè)月。對兒童的時(shí)距應(yīng)該短些 , 對成年人的時(shí)距可適當(dāng)長些 , 因?yàn)閭€(gè)體早期的身心特征變化較大 , 而成年人的身心特征則相對穩(wěn)定。

（ 2 ）復(fù)本法 . 根據(jù)同一測驗(yàn)?zāi)康木幹频脑S多平行德等值測驗(yàn) , 可測定被試的同一特征 , 這些等值的測驗(yàn)叫做復(fù)本。對一組受測者間隔一定時(shí)間或同時(shí)施測兩個(gè)復(fù)本 , 根據(jù)兩次測驗(yàn)結(jié)果求得相關(guān)系數(shù) , 即得等值性系數(shù) , 又稱復(fù)本信度。對一組受測者間隔一定時(shí)間后施測兩個(gè)復(fù)本所求得的穩(wěn)定性系數(shù)又稱等值穩(wěn)定性系數(shù)。因?yàn)橛眠@種方法求得的信度不僅受復(fù)本質(zhì)量的影響 , 而且受時(shí)間練習(xí)等因素的影響 , 因此 , 等值穩(wěn)定性系數(shù)更全面地反映了測驗(yàn)的信度。計(jì)算等值穩(wěn)定性系數(shù)是對兩個(gè)復(fù)本測驗(yàn)結(jié)果計(jì)算斯皮爾曼積差相關(guān)系數(shù) ( 具體公式見前 ) 。

（ 3 ）分半法 . 當(dāng)測驗(yàn)沒有復(fù)本 ( 復(fù)本的編制是很復(fù)雜的 ) 而且測驗(yàn)只適合施測一次的情況下 , 可用分半法估計(jì)信度 , 即將測驗(yàn)題目分成對等的兩半 , 根據(jù)每人在這兩半測驗(yàn)中的得分 , 計(jì)算其相關(guān)系數(shù) , 這個(gè)系數(shù)又稱內(nèi)部一致性系數(shù)。

要求得分半信度 , 首先要將測驗(yàn)分成對等的兩半。絕大多數(shù)測驗(yàn)是由許多題目排列組成的 , 但是若將測驗(yàn)簡單地分成前后兩部分 , 常常是不對等的 , 對等的兩部分起碼有兩個(gè)要求 : 一是測驗(yàn)的兩部分在難度、區(qū)分度及測驗(yàn)?zāi)繕?biāo)上基本是相同的 ; 一是被測者以同等的態(tài)度來對待兩部隊(duì)測驗(yàn) , 即在完成兩部分測驗(yàn)過程中 , 練習(xí) , 疲勞 , 情緒等因素對被試產(chǎn)生了同等的影響。因此 , 將一個(gè)測驗(yàn)分成兩部分時(shí) , 常用的是奇偶分半法 , 即將奇數(shù)題分為一部分 , 將偶數(shù)題分為一部分。特別是測驗(yàn)題目是按由易到難排列時(shí) , 這種分法可以將測驗(yàn)分為大致相等的兩半 , 但是 , 對于速度型的測驗(yàn)不適合用奇偶分半法。

用分半法求出的測驗(yàn)的信度系數(shù)并不能反映整個(gè)測驗(yàn)的信度。這是因?yàn)樾哦仁軠y驗(yàn)的長度的影響 , 測驗(yàn)越長 , 信度越高 , 將測驗(yàn)分成兩半求得的信度系數(shù) , 低估了整個(gè)測驗(yàn)的信度 , 因此 , 需對測驗(yàn)系數(shù)加以校正 , 校正公式是斯皮爾曼—布朗 (Spearman — Brown) 公式 :

                      2Rhh

          Rxx= ─────

                     1+Rhh

    Rxx 是整個(gè)測驗(yàn)的信度估計(jì)系數(shù) ,Rhh 是兩個(gè)分半測驗(yàn)的相關(guān)系數(shù)。上述公式的前提假設(shè)是兩個(gè)半測驗(yàn)分?jǐn)?shù)的變異性相等 , 但是若測驗(yàn)資料不符合這個(gè)假定 , 可用下列公式求得信度 :

     弗朗那根 (Flanagan) 公式 :

                                  Sa 2 +Sb 2

              Rxx=2 · (1- ━──── )

                                     Sx 2

   Sa 2 和 Sb 2 分別代表兩個(gè)分測驗(yàn)分?jǐn)?shù)的變異數(shù) ,Sx 2 代表整個(gè)測驗(yàn)的變異數(shù)。

     盧倫 (Rulon) 公式 :

                           Sd 2

           Rxx=1- ━───

                           Sx 2

    Sd 2 代表兩個(gè)半測驗(yàn)分?jǐn)?shù)之差的變異數(shù) ,Sx 2 代表總測驗(yàn)變異數(shù)。

     對于由客觀性題目組成的測驗(yàn) ( 即答對一題得一分 , 答錯(cuò)得 0 分 ), 則可用庫得─理查遜 (Kuder ─ Richardson) 公式估計(jì)測驗(yàn)的內(nèi)部一致性 :

                   k ∑ (pq)

    Rkk=( ──── )(1- ────── )

                  k-1 Sx 2

    k 為測驗(yàn)的總題目數(shù) ,p 為某一個(gè)題目的答對率或通過該題目的人數(shù)比例 ,q 為未通過該題目的人數(shù)比例 ,p=1-q,Sx 2 為測驗(yàn)總分的方差。

     對于由客觀性題目和主觀性題目組成的測驗(yàn) , 有些題目是多重計(jì)分的情況下 , 則要用克倫巴赫 (Cronbach) 公式計(jì)算α系數(shù)來估計(jì)測驗(yàn)的內(nèi)部一致性 :

                k ∑ Si 2

     α =( ──── )(1- ───── )

                k-1 Sx 2

    k 為測驗(yàn)題目總分 ,Si 2 是某一題目得分的方差 ,Sx 2 是整個(gè)測驗(yàn)分?jǐn)?shù)的方差。

上面這些公式不適用于速度性測驗(yàn) , 因?yàn)橹挥忻總€(gè)人做完所有的題目 , 題目的方差才是準(zhǔn)確的。

3 、提高測驗(yàn)信度的方法 :

影響測驗(yàn)信度的誤差歸納起來主要有 :

(1) 抽樣誤差 : 簡單說 , 這是在抽樣過程中由于被試間的差異所造成的誤差。被試間的差異可以用全距和方差大小來表示。全距是指某一心理量最大值與最小值之差。全距大說明被試間差異大 , 全距小說明被試間差異小。被試間在某一心理量上參差不齊 , 差別懸殊 , 則該心理量的方差大 ; 反之 , 方差小。對于方差小的樣本 , 被試間在某一心理特征上相差較小 , 則前后兩次測驗(yàn)結(jié)果的一致性較低 , 即降低了信度。因?yàn)楸辉囍g的差別越小其同質(zhì)性越高 , 被試的分?jǐn)?shù)只要發(fā)生小的變化 , 其名次就可能改變 , 從而降低信度。

(2) 隨機(jī)誤差 : 由于各種偶然因素的影響而產(chǎn)生的誤差 , 表現(xiàn)為用同一方法多次測量同一對象時(shí)結(jié)果上不一致。隨機(jī)誤差是由許多因素造成的 , 如量標(biāo)的質(zhì)量 , 測量的程序 , 被試的身心狀態(tài) , 測量的環(huán)境等。

根據(jù)影響測驗(yàn)信度的因素 , 可從以下幾方面來提高測驗(yàn)的信度 : 一是從測驗(yàn)本身考慮 , 如測驗(yàn)的長度、難度、區(qū)分度、速度、程序、環(huán)境條件與計(jì)分方法等 ; 一是從被試自身考慮 , 如被試在被測心理特征上的差異大小 , 參加測驗(yàn)的動(dòng)機(jī)水平 , 對測驗(yàn)的態(tài)度和積極性等。在此主要介紹如下幾種提高測驗(yàn)信度的方法 :

（ 1 ）適當(dāng)延長測驗(yàn)的長度 :

     測驗(yàn)的長度主要指量表所包含的題目多少。對一個(gè)測驗(yàn)來說 , 測驗(yàn)的題目越少 , 得分越容易受偶然因素的影響 , 故測驗(yàn)的信度越低。反之如果測驗(yàn)題目較多 , 即測驗(yàn)長度延長 , 擴(kuò)大了被試得分范圍 , 可在一定程度上排除偶然因素的影響 , 從而提高測驗(yàn)信度。但是測驗(yàn)信度的增加并不是等比例提高信度系數(shù)。當(dāng)信度系數(shù)較小時(shí) , 延長測驗(yàn)長度信度系數(shù)增加較大 ; 當(dāng)信度系數(shù)已經(jīng)較大時(shí) , 延長測驗(yàn)長度對信度系數(shù)的影響就較小了。而且 , 在延長測驗(yàn)長度時(shí) , 還需考慮其他因素的影響 , 如被試在回答問題時(shí)是否疲倦或產(chǎn)生厭煩情緒 , 是否節(jié)省時(shí)間、物力和財(cái)力 , 測題是否附合測驗(yàn)?zāi)康牡取?

（ 2 ）測驗(yàn)的難度要適中 : 難度即測驗(yàn)的難易程度 , 當(dāng)測驗(yàn)難度太大時(shí) , 被試得分普遍太低 , 呈負(fù)偏態(tài)分布 ; 當(dāng)測驗(yàn)難度太小時(shí) , 被試得分普遍較高 , 呈正偏態(tài)分布。太難太易的測驗(yàn)都使被試得分差異減小 , 使實(shí)得分?jǐn)?shù)方差減小 , 從而降低測驗(yàn)信度。參見公式 :

                     δ E 2

            R=1- ─────

                     δ x 2

（ 3 ）測驗(yàn)的內(nèi)容盡量同質(zhì) : 性質(zhì)相同的測驗(yàn)內(nèi)容 , 對被試也要求相同的能力、知識和技能 ; 而內(nèi)容不同質(zhì)的測驗(yàn) , 則要求被試不同的能力、知識和技能。因而為了提高測驗(yàn)信度 , 測驗(yàn)內(nèi)容應(yīng)盡量同質(zhì)。

（ 4 ）測驗(yàn)的時(shí)間要充分 : 對某一測驗(yàn)而言 , 應(yīng)保證絕大多數(shù)被試在規(guī)定時(shí)間內(nèi)完成測驗(yàn) ; 否則 , 如果被試不能從容回答所有問題 , 就不能反映被試的真實(shí)水平。

（ 5 ）測驗(yàn)的程序要統(tǒng)一 : 包括測驗(yàn)的題目統(tǒng)一 , 指導(dǎo)語、回答問題的方式、分收試卷的方法、測驗(yàn)時(shí)間等都要統(tǒng)一。

（ 6 ）評分要客觀 : 評分是否客觀對測驗(yàn)信度有直接的影響。對于客觀性題目 , 評分標(biāo)準(zhǔn)明確 , 評分容易做到客觀 ; 但對于主觀性題目 , 受評分者影響較大 , 不易做到客觀。為了盡可能客觀評分 , 應(yīng)制定明確而易掌握的評分標(biāo)準(zhǔn) , 盡量做到一卷多評 , 或一人只評一題等。

（二）效度

1 、效度的含義

     效度 (Validity) 是指測量的有效程度或測量的正確性 , 即一個(gè)測驗(yàn)?zāi)軌驕y量出所要測量特性的程度。例如 , 用直尺測量長度是有效的 , 而用來測量溫度則是無效的。對效度的定義可作如下理解 :

（ 1 ）任何一種測驗(yàn)只是對一定目的來說才是有效的。

（ 2 ）測驗(yàn)的效度是對測量結(jié)果而言的 , 即一種測量工具只有經(jīng)過實(shí)際測量 , 才能根據(jù)測量結(jié)果判斷它的效度。

（ 3 ）測驗(yàn)的效度是相對的而非絕對的。測驗(yàn)是根據(jù)行為樣本 , 對所要測量的心理特性作間接推斷 , 只能達(dá)到某種程度的準(zhǔn)確性 , 而沒有全有、全無的差別。

在測量理論中 , 效度被定義為 : 在一系列測量中 , 與測量目的有關(guān)的真變異數(shù) ( 即有效變異 ) 與總變異數(shù)之比 : Sv 2

        rxy 2 = ───────

                         Sx 2

rxy 表示測量的效度系數(shù) ,Sv 2 代表有效變異數(shù) ,Sx 2 代表總變異數(shù)。

根據(jù)上述公式 , 可看出效度與信度的關(guān)系 :

     ∵ Sx 2 =Sv 2 +SI 2 +SE 2

       ST 2 =Sv 2 +SI 2

                    Sv 2 ST 2 -SI 2 SI 2

     ∴ rxy 2 = ─── = ───── = rxx- ─────

                 Sx 2 Sx 2 Sv 2

     ∴ rxy 2 ≤ rxx

SI 2 表示系統(tǒng)誤差方差 , 它穩(wěn)定地與有效方差結(jié)合在一起 , 對信度沒有影響 , 而影響效度。從以上證明看出 , 測驗(yàn)的效度受測驗(yàn)的信度所制約 , 而且效度系數(shù)不會(huì)大于信度系數(shù)。效度高的測驗(yàn) , 信度必定高 ; 但信度高的測驗(yàn) , 效度則未必高。

效度在教育測量中有重要的意義。對一個(gè)測驗(yàn)來說 , 效度比信度更為重要 , 測驗(yàn)首先要保證能如實(shí)地測量出所要測量的東西 , 否則 , 這種測量將是沒有意義的。在教育測量中 , 效度問題尤其重要 , 首先 , 教育測量的對象大多是精神現(xiàn)象 , 只能對被測者的外部表現(xiàn)進(jìn)行測量 , 以間接了解其心理活動(dòng)特點(diǎn)或知識技能水平。其次 , 學(xué)生的心理活動(dòng)特征與其外部表現(xiàn)之間 , 僅有相關(guān)關(guān)系而沒有嚴(yán)格的函數(shù)關(guān)系 , 外部行為有時(shí)并不能準(zhǔn)確地反映某種心理狀態(tài)。再次 , 教育測量對象是有主觀能動(dòng)性的人 , 人是能夠有意識地調(diào)節(jié)自己的外部行為 , 掩蓋自己的內(nèi)心活動(dòng) , 這就更增加了教育測量的難度。

2 、效度的類型與估計(jì)

(1) 內(nèi)容效度 (Content Validity): 是指測驗(yàn)?zāi)康拇硭麥y量的內(nèi)容和引起預(yù)期反應(yīng)所達(dá)到的程度。例如 , 以考查學(xué)習(xí)成績?yōu)槟康牡臏y驗(yàn)來說 ," 所欲測量的內(nèi)容 " 是指教學(xué)大綱所規(guī)定的全部教材 ;" 起預(yù)期反應(yīng) " 是指學(xué)生學(xué)習(xí)這些教材所產(chǎn)生的行為變化 , 如對教材的記憶、理解和應(yīng)用。

     在編制測驗(yàn)時(shí) , 內(nèi)容效度是一個(gè)相當(dāng)復(fù)雜的問題 , 例如教師編制學(xué)績測驗(yàn) , 其目的是了解學(xué)生在某一學(xué)科或?qū)ｎ}上對知識掌握情況 , 若條件允許 , 應(yīng)該對大綱規(guī)定的所有內(nèi)容進(jìn)行全面考試 , 這顯然是行不通的 , 只能從這一范圍總體內(nèi)容中選取有代表性題目 ( 樣本 ), 組成測驗(yàn) , 根據(jù)測驗(yàn)分?jǐn)?shù)推論學(xué)生對該范圍總體知識的掌握。若測驗(yàn)題目較好地代表了這個(gè)知識范圍 , 則推論是有效的 , 即測驗(yàn)的內(nèi)容效度高 ; 若選題有偏差 , 則推論是無效的 , 即測驗(yàn)的內(nèi)容效度低。從另一方面看 , 測驗(yàn)題目所引起的被試反應(yīng) ( 是一個(gè)樣本 ), 若能代表其對本學(xué)科或?qū)ｎ}的全部行為反應(yīng) , 也說明該測驗(yàn)是有效的 ; 反之 , 則是無效的。因此 , 一個(gè)測驗(yàn)要有較高的內(nèi)容效度應(yīng)具備如下兩個(gè)條件 :1. 要有定義好的內(nèi)容范圍。 2. 測驗(yàn)題目取樣應(yīng)有代表性 ( 對所界定的內(nèi)容范圍而言 ) 。

     估計(jì)內(nèi)容效度的方法 :

A 、由專家進(jìn)行邏輯分析 : 即請有關(guān)專家對測驗(yàn)題目與原來的內(nèi)容范圍是否符合進(jìn)行分析 , 作出判斷 , 看測驗(yàn)題目是否較好地代表了原來的內(nèi)容。

B 、統(tǒng)計(jì)分析 : 克倫巴赫 (Cronbach) 認(rèn)為內(nèi)容效度可以進(jìn)行數(shù)量估計(jì) , 方法是從同一教學(xué)內(nèi)容總體中抽取兩套測題 , 分別對同一組被試進(jìn)行測驗(yàn) , 兩種測驗(yàn)的相關(guān)系數(shù)可用來估計(jì)內(nèi)容效度。若相關(guān)系數(shù)大 , 則內(nèi)容效度高 ; 若相關(guān)系數(shù)小 , 則兩個(gè)測驗(yàn)中至少有一個(gè)內(nèi)容效度低。

另外 , 有經(jīng)驗(yàn)的任課教師對本學(xué)科測驗(yàn)的內(nèi)容效度有較好的判斷。當(dāng)然 , 若能與有關(guān)專家配合會(huì)更好些。

（ 2 ）結(jié)構(gòu)效度 (Construct Validity): 又稱構(gòu)想效度 , 是測驗(yàn)對某一理論概念或心理特質(zhì)測量的程度。即某測驗(yàn)對所要測量的結(jié)構(gòu)或心理特質(zhì)實(shí)際測量的程度。心理測驗(yàn)都是建立在心理學(xué)理論基礎(chǔ)的 , 例如比納─西蒙智力量表的制訂 , 心理學(xué)家比納 (Binet) 首先詳細(xì)研究了智力的結(jié)構(gòu) , 他認(rèn)為智力行為是一種連鎖性的過程 , 包括判斷、推理、解決問題等。他根據(jù)這一理論編制的智力測驗(yàn) , 確實(shí)測量出被試的判斷、推理和解決問題能力 , 可以認(rèn)為他所編制的測驗(yàn)具有結(jié)構(gòu)效度。一般說 , 學(xué)科測驗(yàn)主要看內(nèi)容效度 , 心理測驗(yàn)主要看結(jié)構(gòu)效度。判斷內(nèi)容效度更容易一些 , 有教學(xué)大綱作依據(jù) ; 判斷結(jié)構(gòu)效度更難一些 , 因?yàn)槔碚摻Y(jié)構(gòu)和心理特質(zhì)不易把握。因此 , 要制訂有構(gòu)想效度的測驗(yàn) , 首先要建立理論結(jié)構(gòu) , 例如智力測驗(yàn) , 先要確定關(guān)于智力的一套理論 , 如智力的概念、結(jié)構(gòu)、與環(huán)境的關(guān)系、與年齡的關(guān)系、與性別的關(guān)系等 , 在理論的基礎(chǔ)上提出若干假設(shè)并編制測題。

確定結(jié)構(gòu)效度的方法 :

A 、對測驗(yàn)題目進(jìn)行分析 : 主要是分析測驗(yàn)的內(nèi)容 , 被試對題目所作的反應(yīng) , 測驗(yàn)題目的同質(zhì)性以及分測驗(yàn)之間的關(guān)系來判斷測驗(yàn)的構(gòu)想效度。

B 、計(jì)算與同類權(quán)威測驗(yàn)的相關(guān) : 某一個(gè)新測驗(yàn)如果與同類的大家公認(rèn)有效的已有測驗(yàn)之間 , 在測驗(yàn)結(jié)果上相關(guān)很高 , 說明這兩個(gè)測驗(yàn)測的是相同特質(zhì) , 即新測驗(yàn)也有較高的結(jié)構(gòu)效度 , 如后編的智力測驗(yàn)常與斯坦福─比納智力量表進(jìn)行比較。

C 、因素分析 : 通過因素分析找到影響測驗(yàn)分?jǐn)?shù)的共同因素 , 在測驗(yàn)分?jǐn)?shù)的總變異中來自有關(guān)因素的比例 , 可以作為構(gòu)想效度的指標(biāo)。

(3) 預(yù)測效度 (Predictive Validity): 又稱實(shí)證效度 , 是指一個(gè)測驗(yàn)對個(gè)體將來的行為或獲得的成就進(jìn)行預(yù)測時(shí)的準(zhǔn)確性。一個(gè)測驗(yàn)預(yù)測得越準(zhǔn)確 , 預(yù)測效度越高。被預(yù)測的行為或成績是檢驗(yàn)預(yù)測效度的標(biāo)準(zhǔn) , 簡稱效標(biāo) (Criterion), 即衡量測驗(yàn)有效性的參照標(biāo)準(zhǔn)。效標(biāo)是估計(jì)預(yù)測效度的主要依據(jù) , 應(yīng)具備如下一些條件 1) 有效性 : 即效標(biāo)測量本身必須有效。 (2) 可靠性 : 效標(biāo)測量要具有較高的信度。 (3) 客觀性 : 在效標(biāo)測量時(shí)要防止受評定者主觀印象和成見的影響 , 要防止效標(biāo)污染 , 即由于主試知道某個(gè)人原來的測驗(yàn)成績 , 因而影響了在效標(biāo)測量中對這個(gè)人的評定分?jǐn)?shù)。 (4) 效標(biāo)測量應(yīng)該簡單省時(shí) , 花費(fèi)少 , 經(jīng)濟(jì)實(shí)用。一般常用學(xué)業(yè)成就 , 等級評定 , 臨床診斷 , 實(shí)際的工作表現(xiàn)作為效標(biāo)。例如 , 一個(gè)智力測驗(yàn)其預(yù)測效度既可用被試的學(xué)業(yè)成就作效標(biāo) , 也可用熟悉的班主任對其進(jìn)行等級評定作效標(biāo)。

估計(jì)預(yù)測效度的主要方法是 :

A 、相關(guān)法 : 即求某測驗(yàn)分?jǐn)?shù)與效標(biāo)測量間的相關(guān) , 所得結(jié)果即效標(biāo)系數(shù)。當(dāng)測驗(yàn)分?jǐn)?shù)與效標(biāo)測量分?jǐn)?shù)都是連續(xù)變量時(shí) , 用積差相關(guān)公式求相關(guān)系數(shù) ( 具體公式見統(tǒng)計(jì)教材 ) 。

     當(dāng)測驗(yàn)分?jǐn)?shù)是連續(xù)變量 , 而效標(biāo)測量分?jǐn)?shù)是二分變量時(shí) , 可用二列相關(guān)公式計(jì)算效度系數(shù) ( 具體公式見統(tǒng)計(jì)教材 ) 。

B 、區(qū)分法 : 即看原先測驗(yàn)的分?jǐn)?shù)是否可以區(qū)分由效標(biāo)測量所化分的團(tuán)體。例如 , 某工廠通過測驗(yàn)錄用了一批工人 , 過一段時(shí)間后 , 根據(jù)工作成績將其分為稱職和不稱職兩種 , 然后回過頭來檢查他們的測驗(yàn)分?jǐn)?shù) , 運(yùn)用 t 檢驗(yàn)看看兩組在測驗(yàn)上的平均分?jǐn)?shù)是否有顯著差異。若有顯著差異 , 說明測驗(yàn)是有效的 ; 若差異不顯著 , 說明測驗(yàn)是無效的。

C 、功利率 : 為了測定測驗(yàn)的功效 , 人們還可對使用測驗(yàn)所化掉的費(fèi)用與得到的利益進(jìn)行比較 , 看其利弊大小 , 這種效度指標(biāo)叫功利率。

U=B(Ns)-C(Nu)-S

U 代表功利率 ,B 表示錄用一個(gè)合格的工人所產(chǎn)生的平均利潤 ,C 表示錄用一個(gè)不合格的工人所造成的損失 ,Ns 和 Nu 分別代表所錄用的人中成功和不成功的人數(shù) ,S 代表整個(gè)選人程序的費(fèi)用。

計(jì)算功利率說明 , 如果一個(gè)測驗(yàn)簡單易做 , 適合于團(tuán)體施測 , 即使效度低些 , 也會(huì)有人采用 ; 反之 , 如果測驗(yàn)復(fù)雜 , 只能個(gè)別施測 , 費(fèi)時(shí)費(fèi)力 , 那么只有效度極高 , 給人帶來極大好處時(shí) , 人們才會(huì)使用它。

提高測驗(yàn)效度對教育測驗(yàn)非常關(guān)鍵 , 效度系數(shù)多大合適 ? 要根據(jù)測驗(yàn)的具體情況而定 :

    (1) 智力測驗(yàn)分?jǐn)?shù)與熟悉教師對學(xué)生智力等級評定之間的效度系數(shù)一般在 0.30 ─ 0.50 之間。教師評定常受許多其他因素的影響。

    (2) 某一科目的標(biāo)準(zhǔn)測驗(yàn)成績與任課教師對學(xué)生名次排列之間的相關(guān)系數(shù)應(yīng)達(dá)到 0.60 ─ 0.70 。

    (3) 兩種不同的智力測驗(yàn)或兩種標(biāo)準(zhǔn)測驗(yàn)之間的相關(guān)系數(shù)應(yīng)達(dá)到

0.60 ─ 0.80

      效度系數(shù)可解釋為效標(biāo)分?jǐn)?shù)中的變異有百分之幾來源于測驗(yàn)的變異。例如效度系數(shù)為 0.50, 則說明效標(biāo)分?jǐn)?shù)中有 0.502=25% 的變異來自原測驗(yàn)分?jǐn)?shù)的變異 ; 若效度系數(shù)為 0.71, 則效標(biāo)分?jǐn)?shù)中有 50% 的變異來自原測驗(yàn)分?jǐn)?shù)。

3 、提高測驗(yàn)效度的方法 :

（ 2 ）控制系統(tǒng)誤差 : 系統(tǒng)誤差是影響測驗(yàn)效度的主要因素。它主要包括儀器不準(zhǔn) , 題目和指導(dǎo)語有暗示性 , 答案按排不當(dāng) ( 被試可以猜測 ) 等 , 控制這些因素可以降低系統(tǒng)誤差 , 提高效度。

(2) 精心編制測題和測驗(yàn)量表 : 首先測題內(nèi)容要適合測驗(yàn)?zāi)康?, 如知識性測題就不能全面反映被試的智力水平 , 它主要測量其知識水平。其次 , 測題要清楚明了 , 用語要讓被試?yán)斫?, 排列由易到難。第三 , 測題的難度和曲分度要合適。

(3) 嚴(yán)格按照測驗(yàn)程序進(jìn)行測量 , 防止測量誤差 : 要嚴(yán)格按照測驗(yàn)手冊進(jìn)行測量 , 不能作過多的解釋 , 按標(biāo)準(zhǔn)評分 , 兩次測驗(yàn)間隔要適當(dāng)。

(4) 樣本容量要適當(dāng) : 當(dāng)樣本容量增大時(shí) , 樣本對總體的代表性提高 , 樣本大 , 被試的內(nèi)部差異增大 , 擴(kuò)大了真分?jǐn)?shù)的方差 , 使效度提高。樣本容量一般不應(yīng)低于 30 。另外 , 抽樣方法也很重要 , 一般用隨機(jī)抽樣 , 當(dāng)群體很大時(shí) , 可分層抽樣 , 樣本容量擴(kuò)大時(shí) , 其代表性才隨之增大。

(5) 正確處理好信度與效度的關(guān)系 : 信度是效度的必要條件 , 但信度高的測驗(yàn) , 效度不一定高 ; 而效度高的測驗(yàn) , 信度卻比較高。但是 , 既要有高效度 , 又要有高信度是不容易做到的。“最大可靠度（信度）要求測驗(yàn)項(xiàng)目之間有高度的組間相關(guān)；最大預(yù)測有效度卻要求低度的組間相關(guān)。最大可靠度（信度）要求項(xiàng)目等同的難度；最大預(yù)測有效度卻要求項(xiàng)目的難度有所區(qū)別。中等程度的組間相關(guān)（ 0.10 ─ 0.60), 通?？僧a(chǎn)生良好的效度 (0.30 ─ 0.80), 并且產(chǎn)生滿意的信度 (0.90) 。” ( 郝德員 : 《教育與心理統(tǒng)計(jì)》 , 教育科學(xué)出版社 ,1962 年版 .P429)

(6) 適當(dāng)增加測驗(yàn)的長度 : 增加測驗(yàn)的長度可提高測驗(yàn)的信度 , 也可以提高效度 , 但增加測驗(yàn)的長度對信度的影響大于對效度的影響。如果增加測驗(yàn) 長度到原來的 n 倍 , 則新測驗(yàn)的效度系數(shù) Rnxy 計(jì)算公式 :

                Rxy

    Rnxy= ───────────

             ├────────

             │ 1-Rxx

             │──── + Rxx

            √ n

式中 Rxy 、 Rxx 分別是原測驗(yàn)的效度系數(shù)和信度系數(shù)。

（三）難度

1 、測驗(yàn)的含義

難度 (Difficulty) 簡單說是指測驗(yàn)的難易程度 , 通常是以題目的通過率來表示大小的 , 通過率是指被試正確回答或通過題目的人數(shù)與所有被試之比 , 即 :

            R

    P = ────── *100 ％

            N

P 表示題目難度 ,R 表示被試正確回答或通過題目的人數(shù) ,N 表示參加測驗(yàn)的所有被試。 P 值越大 , 表示題目越簡單 ;P 值越小 , 說明題目越難。

（ 1 ）難度影響測驗(yàn)分?jǐn)?shù)的分布狀態(tài) : 當(dāng)難度值 P 趨向 1.00 時(shí) , 說明所有被試都得了高分 ; 當(dāng)難度值 P 趨向 0.00 時(shí) , 說明被試得了低分。在此情況下 , 被試得分集中在高分和低分端 (100 和 0), 學(xué)生間的實(shí)際差異被掩蓋。因此 , 有兩種非常態(tài)的分布 : 正偏態(tài) . 負(fù)偏態(tài) ( 如下圖 ) 正偏態(tài)說明 , 被試得分集中在低端 , 表明題目偏難 ; 負(fù)偏態(tài)說明 ,

被試得分集中在高端 , 表明題目偏易。

（ 2 ）難度影響測驗(yàn)的信度 : 難度太大或太小的測驗(yàn) , 被試得分集中在高分端或低分端 , 測驗(yàn)分?jǐn)?shù)之間的差異變小 , 則測驗(yàn)分?jǐn)?shù)的方差 ( δ x2) 也變小 , 根據(jù)信度公式 :

          δ E2

Rxx=1- ─── , 測驗(yàn)分?jǐn)?shù)的方差減小 , 則 Rxx 值將降低。

          δ x2

（ 3 ）難度影響測驗(yàn)的鑒別力 : 在測驗(yàn)中 , 被試之間相互配對比較的可能性越多 , 就越有利于準(zhǔn)確地鑒別被試的不同能力。如有 100 個(gè)學(xué)生參加考試 , 若 P=0.50 的題目 , 則必有 50 人答對 ,50 人答錯(cuò) , 此題就有 2500(50*50) 次配對比較 ; 若 P=0.70, 則有 70 人答對 ,30 人答錯(cuò) , 可組成 70*30=2100 次配對比較 ; 若 P=1.00 或 P=0.00, 則沒有比較的可能 (100*0=0,0*100=0) 。因此 ,P 值越接近 0.50, 題目的鑒別力就越高 ; P 值越接近 1.00 或 0.00, 題目鑒別力就越低。

（ 4 ）如何確定適宜的難度水平 ?

     一個(gè)測驗(yàn)的難度是由組成測驗(yàn)的各個(gè)題目的難度決定的。整個(gè)測驗(yàn)的難度的確定可根據(jù)測驗(yàn)分?jǐn)?shù)的分布作出 , 每個(gè)題目的難度多大合適 ? 這是由測驗(yàn)的目的決定的 , 并不是要求所有題目的難度都要在

0.50 左右 , 若所有題目的難度都要在 0.50, 題目過分同質(zhì) , 也會(huì)降低測驗(yàn)總分的區(qū)分力。如要通過測驗(yàn)選拔 10% 的學(xué)生參加某項(xiàng)比賽 , 測驗(yàn)的難度應(yīng)與選拔率相當(dāng) , 保持 P=0.50 左右。有些題目即使 P 值為 0, 有時(shí)也是需要的 , 如成就測驗(yàn) , 只要教育者認(rèn)為重要的內(nèi)容可編入測驗(yàn) , 而不管 P 值大小。一般說 , 在測驗(yàn)中 , 題目的難度在 0.20 ─ 0.80 之間 , 整個(gè)測驗(yàn)的平均難度接近 0.50, 是比較理想的難度。另外 , 對于選項(xiàng)不同的選擇題 , 難度值要求也不同 , 五擇一題目 , 適宜的難度值約為 0.69; 四擇一題目 , 難度值應(yīng)為 0.67; 是非題的難度值應(yīng)為 0.50 。

2 、難度的計(jì)算方法

（ 1 ）用題目的通過率估計(jì)難度 :

            R

    P = ────── *100%

            N

（ 2 ） . 用被試得分平均數(shù)估計(jì)難度 :

             M

    P = ────── *100%

             W

P 為難度值 ,M 是被試在某題目上的平均得分 ,W 是該題目的最高得

分 ( 滿分 ) 。該公式適合于計(jì)算大題目的難度。

（ 3 ）用兩端分組法計(jì)算難度 :

            PH+PL

    P = ──────── *100%

               2

P 是難度 ,PH 和 PL 分別代表高分組和低分組的通過率。當(dāng)被試人數(shù)較多時(shí) , 可用該公式計(jì)算難度。在測驗(yàn)總分的分布符合正態(tài)分布時(shí) , 高分組與低分組的最適當(dāng)比例是各占 27%, 如果分布較平坦 , 應(yīng)高于 27% 。一般情況下 , 其比率介于 27% ─ 33% 。各類標(biāo)準(zhǔn)化測驗(yàn)是取 27% 。例如 , 在 100 名學(xué)生中 , 高分組與低分組各有 27 人 , 其中高分組答對第一題的有 20 人 , 低分組答對第一題的有 10 人。該題的難度是 H=20/27=0.74 PL=10/27=0.37

       0.74+0.34

    P= ─────── *100% = 56%

           2

該公式適合用二分法 ( 即答對得 1 分 , 答錯(cuò)得 0 分 ) 計(jì)分的題目。

（ 4 ）選擇題的難度計(jì)算 :

在多項(xiàng)選擇題中 , 由于有猜測的成分 , 被試的得分可能被夸大 , 不能真正反映測驗(yàn)的難度 , 吉爾福德提出了一個(gè)難度的校對公式 :

            KP-1

     CP = ──────

            K-1

CP 為校正后的通過率 ,P 為實(shí)際得到的通過率 ,K 為選項(xiàng)的數(shù)目。

  例如 , 某題有 75% 的被試通過 , 若該題有 5 個(gè)選項(xiàng) , 則校正后的通過率應(yīng)為 CP=(5*0.75-1)/(5-1)= 0.69; 同理可得 ,K=4 時(shí) ,CP=0.67,K=2 時(shí) ( 即是非題 ),CP=0.50 。

（ 5 ）等距量表的難度計(jì)算 : 以通過率作為難度指標(biāo) , 實(shí)際上是以順序量標(biāo)來表示難度 , 這只能指出題目難度的順序或相對難度的高低。例如有 3 個(gè)試題 1.2.3, 其通過率分別為 50%.30%.10%, 我們可以斷定第一題最易 , 第三題最難 , 但無法確定題目 1 和 2 之間的難度差別是否等于題目 2 和 3 之間的難度差別。如果被試在所欲測量的特性上呈常態(tài)分布 , 則可以根據(jù)常態(tài)曲線表 , 將試題難度轉(zhuǎn)化成具有相等單位的等距量表 , 即用 Z 分?jǐn)?shù)表示難度。下面是美國教育測驗(yàn)中心 (ETS) 采用的難度指標(biāo) :

     Δ =13+4Z

Δ (delta) 為常態(tài)化等距難度值 ,13 是平均數(shù) , 目的是為了消除小數(shù) ,Z 表示某題目難度距平均數(shù)有多少個(gè)標(biāo)準(zhǔn)差 ( δ ) 。Δ值介于 1 ─ 25 之間 , Δ值越大 , 難度越高 ; Δ值越小 , 難度越小。對于大多數(shù)測驗(yàn)而言 , 只要算出 P 值即可 , 但如要作精確的統(tǒng)計(jì)分析 , 則需要計(jì)算出具有等距性質(zhì)的Δ值。

（四）區(qū)分度

1 、區(qū)分度的含義

區(qū)分度 (Dscimination) 是指測驗(yàn)項(xiàng)目對被試實(shí)際水平的區(qū)分程度 , 又稱鑒別力。具有良好區(qū)分度的測驗(yàn) , 實(shí)際水平高的被試應(yīng)得高分 , 水平低的被試應(yīng)得低分。它是測驗(yàn)是否有效的 " 指示器 ", 被作為評價(jià)試題質(zhì)量 , 篩選試題的主要指標(biāo)與依據(jù)。

區(qū)分度的取值范圍 ( 指數(shù) D) 在 +1.00 ─ -1.00 之間。如果測驗(yàn)題目有足夠的效度 , 則水平高的被試得分高或通過該題的人數(shù)多 ,D ＞ 0, 這種區(qū)分被稱為積極的區(qū)分 ; 反之 , 若測驗(yàn)的效度不高 , 水平高的被試得分低或通過的人數(shù)少 , 而水平低的被試反而得分高 ,D ＜ 0, 這種區(qū)分被稱為消極的區(qū)分 ; 若高分組與低分組通過的人數(shù)相等 , 則 D=0, 說明無區(qū)分作用。具有積極區(qū)分作用的題目 ,D 值越大 , 其區(qū)分效果越好。

2 、測驗(yàn)區(qū)分度與信度的關(guān)系 :



區(qū)分度與信度的關(guān)系 :

     ━━━━━━━━━━━━━━━━━━━━━

          區(qū)分度 (D) 信度

     ━━━━━━━━━━━━━━━━━━━━━

               .1225 .00

               .16 .42

               .20 .63

               .30 .84

               .40 .915

               .50 .949

    ━━━━━━━━━━━━━━━━━━━━━━

上表是 R.L. 艾伯于 62 年發(fā)表的 , 假定全部題目 ( 共 100 題 ) 的難度均為 0.50 時(shí)所預(yù)測的信度系數(shù)。由上表可看出 , 測驗(yàn)信度隨區(qū)分度的提高而增長 , 且信度增長的速度較區(qū)分度為快。因此 , 要提高測驗(yàn)的信度 , 提高題目的區(qū)分度是方法之一。

3 、區(qū)分度與難度的關(guān)系 :

    表 3 ━ 2 區(qū)分度與難度的關(guān)系 :

   ━━━━━━━━━━━━━━━━━━━━━━

               難度 ( P ) 區(qū)分度 (D)

   ━━━━━━━━━━━━━━━━━━━━━━

         1.00 .00 .

         90 .20

        .70 .60

        .50 1.00

         .30 .60

         .10 .20

          .00 .00

━━━━━━━━━━━━━━━━━━━━━━

由上表可知 , 當(dāng)難度為 1.00 或 0 時(shí) , 區(qū)分度將是 0, 即題目沒有區(qū)分被試實(shí)際水平的能力 ; 難度為 0.50 時(shí) , 題目的區(qū)分度達(dá)到最大值 (P=1), 因此 , 要求題目的難度應(yīng)在 0.50 左右。

     題目鑒別指數(shù)與優(yōu)劣評價(jià)

──────────────────────

     鑒別指數(shù) D 試題評價(jià)

─────────────────────

    0.4 以上非常優(yōu)良

    0.30 ─ 0.39 良好

    0.20 ─ 0.29 尚可

    0.19 以下應(yīng)該淘汰

───────────────────────

  ( 美國測量學(xué)家伊貝爾 L.Ebel 提出 )

4 、區(qū)分度的計(jì)算

（ 1 ）客觀性試題的區(qū)分度計(jì)算 :

          D=PH-PL

PH 為高分組通過試題的人數(shù)比例 ,PL 為低分組通過試題的人數(shù)比例。 D 為區(qū)分度。

（ 2 ）論文題目的區(qū)分度計(jì)算 :

           XH-XL

      D= ──────

          N(H-L)

D 為區(qū)分度指數(shù) ,XH 為高分組得分總數(shù) ,XL 為低分組得分總數(shù) ,H 為該題目的最高得分 ,L 為該題目的最低得分。例如 , 一道滿分為 5 分的論文性題目 , 學(xué)生回答結(jié)果統(tǒng)計(jì)如下 :

       表 3 ─ 3 論文性試題分析表

    ━━━━━━━━━━━━━━━━━━━━━

            高分組 │ 低分組

  ──────────────────────

     得分人次 │ 得分人次

     x f fx │ x f fx

  ━━━━━━━━━━━━━━━━━━━━━━

    5 4 20 │ 5 0 0

    4 3 12 │ 4 1 4

    3 2 6 │ 3 1 3

    2 1 2 │ 2 3 6

    1 0 0 │ 1 4 4

    0 0 0 │ 0 1 0

  ━━━━━━━━━━━━━━━━━━━━━━━━

    ∑ 10 40 ∑ 10 17

  ━━━━━━━━━━━━━━━━━━━━━━━━

               40-17

       D= ────── = 0.46

               10(5-0)

三、測驗(yàn)的編制

編制測驗(yàn)的一般程序主要包括 : 確定測驗(yàn)?zāi)康?, 制定編題計(jì)劃 , 編制測題 , 最后合成測驗(yàn)。

（一）測驗(yàn)?zāi)康牡拇_定

編制測驗(yàn)首先要明確為什麼測驗(yàn) , 要測量什麼 , 即要明確測驗(yàn)?zāi)康?。只有明確了測驗(yàn)?zāi)康?, 我們才知道測什麼 , 怎樣測 , 才能解決測驗(yàn)質(zhì)量的優(yōu)劣問題。在教育測驗(yàn)中 , 教育目標(biāo)是確定測驗(yàn)?zāi)康牡奈ㄒ灰罁?jù)。因此 , 要明確教育測驗(yàn)?zāi)康?, 首先要明確教育目標(biāo) , 即教育目標(biāo)必須是能夠測量 , 適合于測量。所以 , 分析測驗(yàn)?zāi)康?, 首先要從分析教育目標(biāo)入手。

教育目標(biāo)的確定也是一個(gè)十分復(fù)雜的問題 , 它包括許多要素 , 這些要素既是相互獨(dú)立 , 又是彼此聯(lián)系的。 1956 年 , 美國心理學(xué)家布魯姆 (B.S.Bloom) 最早提出了教育目標(biāo)分類系統(tǒng)。他把教育目標(biāo)分為認(rèn)知目標(biāo)、情感目標(biāo)、運(yùn)動(dòng)技能目標(biāo)三大類 , 每類目標(biāo)又分成不同層次 , 如認(rèn)知目標(biāo)分成六個(gè)層次 : 1. 知識 ( Knowledge) , 2. 理解 (Comprehesion),3. 應(yīng)用 (Application),4. 分析 (Analysis),5. 綜合 (Synthesis),6. 評價(jià) (Evoluation) 。情感目標(biāo) (Affective Domain) 分為五個(gè)層次 :1. 接受 ,2. 反應(yīng) ,3. 評價(jià) ,4. 價(jià)值組織 ,5. 品格形成。布魯姆的教育目標(biāo)分類理論無疑對教育測驗(yàn)的編制有重要意義 , 但應(yīng)該看到他的理論并不是盡善盡美的 , 如認(rèn)知目標(biāo)的六個(gè)層次存在著交叉重疊現(xiàn)象 , 在教育測驗(yàn)中很難將這些層次明確的化分開來。我國的測驗(yàn)理論工作者正在研究這個(gè)問題 , 準(zhǔn)備創(chuàng)建一套適合我國實(shí)際的教育目標(biāo)分類系統(tǒng)。

（二）制定編題計(jì)劃

遍題計(jì)劃通常就是編制測驗(yàn)的雙向細(xì)目表 , 指出測驗(yàn)所包含的內(nèi)容和要測定的技能 , 以及對每一項(xiàng)內(nèi)容和技能的相對重視程度。下表是一個(gè)小學(xué)高年級自然常識測驗(yàn)的雙向細(xì)目表 :

         表 4 ─ 1 假定的自然常識測驗(yàn)的雙向細(xì)目表

━━━━━┳━━━━━━━━━━━━━━━━━━━━━━

教學(xué)目標(biāo) ┃基本│原理│原理因果│

教學(xué)內(nèi)容 ┃知識│理解│應(yīng)用分析│綜合│評價(jià)│合計(jì)

   ━───╂──┼──┼─────┼──┼──┼─────

生物世界 ┃ 3 │ 5 │ 6 3 │ 2 │ 1 │ 20

資源利用 ┃ 2 │ 3 │ 3 1 │ 1 │ 0 │ 10

動(dòng)力和機(jī)械┃ 2 │ 3 │ 4 2 │ 0 │ 1 │ 12

物資、物性┃ 5 │ 6 │ 8 3 │ 2 │ 1 │ 25

    能量 ┃ │ │ │ │ │

氣象 ┃ 2 │ 4 │ 3 2 │ 2 │ 0 │ 13

宇宙 ┃ 2 │ 5 │ 4 1 │ 0 │ 0 │ 12

地球 ┃ 2 │ 2 │ 2 1 │ 1 │ 0 │ 8

─────╂─┼─┼─────┼──┼───────

合計(jì) ┃ 18 28 │ 30 13 │ 8 │ 3 │ 100

━━━━━━━━━━━━━━━━━━┷━━━━━━━━━━

此表的頂端開列了要測量的認(rèn)知目標(biāo) , 與目標(biāo)對應(yīng)最下一行的數(shù)值是各項(xiàng)目標(biāo)所分配的權(quán)重 , 左邊一欄開列的是測驗(yàn)內(nèi)容 ( 教學(xué)內(nèi)容 ), 與該欄對應(yīng)的右邊一欄是各項(xiàng)內(nèi)容所分配的權(quán)重。編制這個(gè)表首先要開列教材大綱并對大綱規(guī)定的教學(xué)內(nèi)容分配權(quán)重 , 其次 , 對各種教學(xué)目標(biāo)分配權(quán)重 , 然后才能編制出雙向細(xì)目表 , 這是編題的依據(jù)。

但在具體編制試題時(shí) , 不宜過于拘泥于此表 , 而要根據(jù)具體情況。

（三）編制測題

編制測題是一項(xiàng)非常復(fù)雜的工作 , 它是實(shí)現(xiàn)測驗(yàn)?zāi)康牡年P(guān)鍵 , 測題編寫的好壞直接反映了測驗(yàn)質(zhì)量的高低 , 這是編制測驗(yàn)的核心環(huán)節(jié)。

1 、試題的種類 : 根據(jù)不同標(biāo)準(zhǔn)可以將試題分為不同種類 , 最常見的是根據(jù)評分是否客觀將試題分為 :

（ 1 ）客觀性試題：即評分標(biāo)準(zhǔn)和評分過程都是客觀的 , 評分者之間的信度系數(shù)可達(dá)到 1.00 ?？陀^性試題又可分為 : 簡答題、是非題、填空題、配對題、排列題、多項(xiàng)選擇題、找錯(cuò)題等?？陀^性試題的優(yōu)點(diǎn)是： A 、有明確的標(biāo)準(zhǔn)答案 , 評分簡單準(zhǔn)確 , 便于使用計(jì)算機(jī)閱卷 , 節(jié)省時(shí)間； B 、這類題目適合于測量被試的知識、理解、應(yīng)用、分析幾個(gè)層次的認(rèn)知目標(biāo)； C 、在限定的時(shí)間內(nèi)可包含足夠的試題數(shù)量 , 保證對所測內(nèi)容的覆蓋率。其缺點(diǎn)是： A 、客觀性試題不易編制 , 化費(fèi)較多時(shí)間和精力； B 、它不適合測量被試的綜合、評價(jià)兩級認(rèn)知目標(biāo)； C 、學(xué)生在答題時(shí) , 難以排除被試的隨機(jī)猜測。

（ 2 ）非客觀性試題 : 又包括 , 應(yīng)用題、論述題、作文題、分析題等 , 這些題目被統(tǒng)稱為論文性試題。這類題目的優(yōu)點(diǎn)是： A 、適合測量被試較高層次的認(rèn)知目標(biāo) , 如組織材料的能力、綜合能力、文字表達(dá)能力、評價(jià)能力和創(chuàng)造能力等 , 這是客觀性測題難以測量的； B 、論文性試題編制起來比較簡單 , 不需要準(zhǔn)備很多選項(xiàng) , 省時(shí)省力； C 、論文性試題可克服被試的隨機(jī)猜測以及對知識的簡單背誦而得高分現(xiàn)象。其缺點(diǎn)也是明顯的： A 、論文性試題沒有明確答案 , 評分困難且不可靠； B 、題目數(shù)量少 , 對要測量內(nèi)容的覆蓋面小 , 不能保證內(nèi)容效度； C 、測驗(yàn)成績易受被試寫作能力 , 書寫質(zhì)量等無關(guān)因素的影響。

兩類題目各有利弊 , 在編制測驗(yàn)時(shí)應(yīng)根據(jù)測驗(yàn)?zāi)康牡囊?, 在充分了解各類試題特點(diǎn)的基礎(chǔ)上 , 選擇合適的題型。一般說應(yīng)遵循以下原則 :

（ 1 ）依據(jù)測驗(yàn)?zāi)康倪x擇題型。

（ 2 ）題目取樣要有代表性。

（ 3 ）各種題目類型要合理搭配。

（ 4 ）施測與評分應(yīng)符合經(jīng)濟(jì)性原則。

2 、多項(xiàng)選擇題的編制 :

     在標(biāo)準(zhǔn)化測驗(yàn)中 , 多項(xiàng)選擇題是應(yīng)用最多的一種題型 , 它是由題干和選項(xiàng)兩部分組成的。題干常常用直接問句或不完全陳述句 , 選項(xiàng)由一個(gè)正確答案和若干錯(cuò)誤答案組成。錯(cuò)誤答案又稱干擾項(xiàng) , 目的是干擾被試的選擇 , 使不具備相應(yīng)知識的學(xué)生作出錯(cuò)誤的選擇 , 因此又稱誘答項(xiàng)。例如 : 找出與其他幾項(xiàng)不屬于同類的一項(xiàng) :

    (A) 狗 ( 鳥 (C) 樹 (D) 魚

     孔子的最偉大成就在哪一方面 ?

    (A) 學(xué)術(shù)教育 ( 國防軍事 (C) 藝術(shù)建筑 (D) 內(nèi)政外交

     多選題的優(yōu)點(diǎn)是 :1) 單位時(shí)間內(nèi)可以施測很多題目 , 從而保證取樣的廣泛性、代表性。 2) 評分客觀 , 題目量多 , 可以保證測驗(yàn)的可靠性。 3) 閱卷方便 , 機(jī)器評分 , 保證測驗(yàn)的經(jīng)濟(jì)性。 4) 題目可以存于題庫重復(fù)使用。其缺點(diǎn)是 :1) 有固定答案 , 測不出對材料的組織能力和創(chuàng)造能力。 2) 編題復(fù)雜 , 題目量大 , 要編出一些似是而非的答案是需要一定技巧的。

多項(xiàng)選擇題的編制應(yīng)遵循以下原則 :

（ 1 ）題干意義要完整。讀了題干 , 即使不看選項(xiàng) , 也要知道該題的確切含義。

（ 2 ）題干的陳述要簡單、明確。避免使用不必要的修飾詞和太復(fù)雜的句子。

（ 3 ）錯(cuò)誤答案要有迷惑性 , 不能錯(cuò)得太明顯。例如 , 唐朝定都在 :

(A) 北京 (1321 (C) 長安 (D) 勃海

此題中選項(xiàng) ( (D) 不是城市名 , 是明顯錯(cuò)誤的答案 , 不合要求 , 若改成 ( 蘭州 (D) 洛陽較好。

（ 4 ）在選項(xiàng)中不宜使用重復(fù)的語句。例如 , 客觀性試題的所謂 " 客觀 ", 指的是 :

(A) 指鑒別認(rèn)知目標(biāo)的方法 ( 指選擇測驗(yàn)內(nèi)容的方法

(C) 指提出問題的方法 (D) 指試題評分的方法

選項(xiàng)中都有 " 的方法 ", 是沒必要的 , 應(yīng)刪去 , 可改為 :

(A) 鑒別認(rèn)知目標(biāo) ( 選擇測驗(yàn)內(nèi)容

(C) 提出問題 (D) 試題評分

（ 5 ）選項(xiàng)不應(yīng)互相重疊 , 互相包括。例如 ,9-3 是多少 ?

(A) 大于 5 (6 (C) 小于 7 (D)12

選項(xiàng)中除 (D) 外 , 其余三項(xiàng)相互重疊 , 應(yīng)予以修改。

（ 6 ）應(yīng)注意題干與選項(xiàng)之間在邏輯與語法上的聯(lián)系。

3 、論文式試題的編制 :

論文式試題的優(yōu)缺點(diǎn)前面已分析過 , 編寫這類題目應(yīng)注意以下幾點(diǎn) :

（ 1 ）題目的范圍應(yīng)限制好。要讓被試明確答題的范圍、要求 , 不使題目過于籠統(tǒng)。

（ 2 ）題目的數(shù)量要適當(dāng) , 內(nèi)容要具體。題目太少 , 其代表性就差 , 測驗(yàn)誤差就大 ; 題目過多 , 易成為速度型測驗(yàn) , 不利于被試對題目作深入的分析、理解。

（ 3 ）在編寫試題的同時(shí)應(yīng)擬定出較具體的答案及評分標(biāo)準(zhǔn)。一般說 , 這類題目的答案常常是不固定的 , 有時(shí)會(huì)有多個(gè)理想答案 , 這在測量前都應(yīng)考慮到。

（ 4 ）一般不要有任選題 , 因?yàn)閮蓚€(gè)論文式題目很難做到等值。

     另外還有匹配題、操作題、改錯(cuò)題、是非題等 , 這些題目的編制方法及應(yīng)注意的問題 , 請參考其他測量教材。

（四）合成測驗(yàn)

試題編好后 , 應(yīng)對題目進(jìn)行檢查 , 組合 , 最后編輯成完整的測驗(yàn) ( 試卷 ) 。

1 、檢查題目 :

首先檢查題目是否符合雙向細(xì)目表要求。因?yàn)轭}目的編寫一般是根據(jù)雙向細(xì)目表來進(jìn)行的。第二 , 檢查題目敘述是否明確清晰 , 內(nèi)容有無科學(xué)性錯(cuò)誤。第三 , 檢查題目的難度是否恰當(dāng) , 題目的數(shù)量是否合適。第四 , 檢查題目的內(nèi)容是否彼此獨(dú)立 , 沒有交叉。第五 , 檢查題目是否適合于所測對象。

2 、編輯成測驗(yàn) :

將測題編輯成完整的測驗(yàn) , 一般有如下幾種形式：（ 1 ）按題目的類型組合測驗(yàn)。將同一類型的測題組合在一起 , 這樣便于計(jì)分和被試回答 , 如大部分學(xué)業(yè)成就測驗(yàn)即屬于這種形式。（ 2 ）按題目所測量的內(nèi)容排列。將測量相同要素的測題排列在一起 , 如韋氏兒童智力量表。（ 3 ）按難度遞增排列題目。又有兩種形式 , 一種是測驗(yàn)的所有題目是按由易到難排列的 ; 另一種是測驗(yàn)分為若干分測驗(yàn) , 每個(gè)分測驗(yàn)是按由易到難排列的 , 韋氏智力量表。（ 4 ）按難度分層次排列 , 又稱混合螺旋式排列。將各種類型的側(cè)題依難度分成若干不同的層次 , 將同難度水平但不同性質(zhì)和類型的題目組合在一起 , 再依難度排列 , 如比內(nèi)─西蒙智力量表。但是 , 在實(shí)際編排測題時(shí) , 有時(shí)是將上述幾種類型混合起來 , 并不一定按照某一單一類型。類型的化分主要是便于實(shí)施和計(jì)分 , 而對被試測驗(yàn)分?jǐn)?shù)的提高無明顯影響 , 真正影響測驗(yàn)分?jǐn)?shù)的是測題本身。因此 , 應(yīng)更多地注意編題的質(zhì)量。

書名叫：SPSS統(tǒng)計(jì)應(yīng)用實(shí)務(wù)。
里面講了信度分析的方法，效度沒有說。

大學(xué)英語考試的設(shè)計(jì)原則

大規(guī)模標(biāo)準(zhǔn)化考試

大學(xué)英語四、六級考試以《大學(xué)英語教學(xué)大綱》為基礎(chǔ)。八十年代初隨著我國政府實(shí)行對外開放政策，人們認(rèn)識到英語作為國際交際工具的重要性，英語教學(xué)受到了各級各類學(xué)校的高度重視。為了適應(yīng)新的形勢，1982 年國家教委成立了教學(xué)大綱修訂組。修訂組經(jīng)過兩年的社會(huì)需要調(diào)查、中學(xué)生英語水平調(diào)查，確定了大學(xué)英語教學(xué)目標(biāo)，又在應(yīng)用語言學(xué)理論指導(dǎo)下，通過調(diào)查研究確定了詞匯表、結(jié)構(gòu)表、功能意念表、和微技能表，具體地規(guī)定了大學(xué)英語課程的教學(xué)內(nèi)容，《大學(xué)英語教學(xué)大綱》還把整個(gè)大學(xué)英語課程分為六級，每級都有定量指標(biāo)加以規(guī)定。其中一至四級為必修課，五至六級為選修課。《大學(xué)英語教學(xué)大綱》于1985 年由國家教委頒布，是全國高等學(xué)校都要執(zhí)行的重要教學(xué)文件。

國家教委在批準(zhǔn)實(shí)施《大學(xué)英語教學(xué)大綱》的通知中指出：“《大綱》確定的教學(xué)目的和要求反映了當(dāng)前國家對高等專業(yè)人才外語方面的要求，是我委今后檢查大學(xué)英語教學(xué)質(zhì)量的依據(jù)”，“重點(diǎn)院校應(yīng)達(dá)到的級別由各校自定”，“凡執(zhí)行本大綱的學(xué)校，國家教委將……對結(jié)束四、六級學(xué)習(xí)的學(xué)生進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)考試”。這里所說的標(biāo)準(zhǔn)考試就是“大學(xué)英語四、六級標(biāo)準(zhǔn)化考試”。

•以教學(xué)大綱為依據(jù)

<<大學(xué)英語教學(xué)大綱>>規(guī)定，語言測試要“著眼在考核學(xué)生的語言能力和交際能力，準(zhǔn)確性和流利程度。”教學(xué)大綱指出：大學(xué)英語教學(xué)的目的是培養(yǎng)學(xué)生具有較強(qiáng)的閱讀能力，一定的聽的能力和譯的能力，以及初步的寫和說的能力，使學(xué)生能以英語為工具，獲取專業(yè)所需要的信息，并為進(jìn)一步提高英語水平打下較好的基礎(chǔ)。為此，大學(xué)英語考試主要考核學(xué)生運(yùn)用語言的能力，同時(shí)也考核學(xué)生對語法結(jié)構(gòu)和詞語用法的掌握程度。

•質(zhì)量要求

<<大學(xué)英語教學(xué)大綱>>又規(guī)定：“語言測試是檢查學(xué)生語言水平的重要手段，要做到科學(xué)、客觀、統(tǒng)一和標(biāo)準(zhǔn)化”。為此，大學(xué)英語考試在設(shè)計(jì)時(shí)力求做到大規(guī)模標(biāo)準(zhǔn)化考試對質(zhì)量的要求，做到：

1) 評分具有客觀性、一致性

2) 對教學(xué)具有正確的指導(dǎo)性

3) 分?jǐn)?shù)具有可比性

4) 施考條件對所有考生以及不同考次的考生一律平等

5) 便于施考

•大學(xué)英語考試的總體設(shè)計(jì)流程

大學(xué)英語考試的總體設(shè)計(jì)流程及運(yùn)作流程如下。

大學(xué)英語考試的質(zhì)量控制

•標(biāo)準(zhǔn)化考試

大學(xué)英語考試是一種標(biāo)準(zhǔn)化考試。標(biāo)準(zhǔn)化考試是指采用教育測量技術(shù)對學(xué)生的英語能力進(jìn)行測量并符合嚴(yán)格規(guī)范要求的大規(guī)?？荚?。

標(biāo)準(zhǔn)化語言測試的目的是提供一種公認(rèn)的客觀標(biāo)準(zhǔn)，通過對學(xué)生語言運(yùn)用的抽樣檢查來確定學(xué)生的實(shí)際語言能力。標(biāo)準(zhǔn)化考試通常指跨地區(qū)甚至跨國界的大規(guī)?？荚?，往往涉及數(shù)十萬甚至上百萬考生，因此對標(biāo)準(zhǔn)化考試有一系列規(guī)范要求，包括內(nèi)容和形式的標(biāo)準(zhǔn)化、質(zhì)量的標(biāo)準(zhǔn)化、以及過程的標(biāo)準(zhǔn)化。

1) 內(nèi)容和形式的標(biāo)準(zhǔn)化

對于標(biāo)準(zhǔn)化考試來說，每次考試的試卷不同，但所考核的內(nèi)容（語言知識和能力）總體保持不變，試卷形式相對穩(wěn)定。不同的語言觀和考試的不同用途決定考試的內(nèi)容。

有些考試以考核語言水平（language proficiency）為理論基礎(chǔ)，如美國的 TOEFL 考試；有些考試以語言交際需要為基礎(chǔ)，如英國的 IELTS 考試；有些則以某一教學(xué)大綱為基礎(chǔ)，如我國的“大學(xué)英語四、六級考試”。不同的語言觀又決定不同的考試形式。有的認(rèn)為語言能力是可以分解的，大量采用孤立的離散題（discrete-point items），以便擴(kuò)大對語言點(diǎn)的采樣，增加覆蓋面；有的認(rèn)為語言是一種綜合能力，應(yīng)大量采用綜合能力題（integrative skills items），以便測量學(xué)生運(yùn)用語言進(jìn)行交際的能力。標(biāo)準(zhǔn)化考試通常不以某一教材為依據(jù)。對于英語標(biāo)準(zhǔn)化考試來說應(yīng)妥善處理知識與能力的關(guān)系、領(lǐng)會(huì)能力與表達(dá)能力的關(guān)系、流利與準(zhǔn)確的關(guān)系、句子水平與語篇水平的關(guān)系等。

2) 質(zhì)量的標(biāo)準(zhǔn)化

(1) 標(biāo)準(zhǔn)化考試的信度與效度：信度和效度是標(biāo)準(zhǔn)化考試最重要的質(zhì)量指標(biāo)。信度指的是測量的誤差要小、可靠程度要高。大規(guī)模標(biāo)準(zhǔn)化考試在公開實(shí)施前其內(nèi)部信度應(yīng)經(jīng)過檢驗(yàn)，一般應(yīng)大于 0.85。效度指某一項(xiàng)考試是否考了應(yīng)該考核的內(nèi)容。效度只能通過外部的、獨(dú)立的標(biāo)準(zhǔn)進(jìn)行評價(jià)，例如把學(xué)生成績與教師的評價(jià)進(jìn)行比較、把一項(xiàng)考試與某一公認(rèn)的大規(guī)模標(biāo)準(zhǔn)化考試作相關(guān)分析、通過長期觀察考生語言能力的變化來驗(yàn)證考試的效度等等。一項(xiàng)考試的效度愈高，對分?jǐn)?shù)的解釋愈準(zhǔn)確?，F(xiàn)代語言測試研究的重點(diǎn)是提高測試的效度；

(2) 評分的客觀性和一致性：根據(jù)評分是否受閱卷員主觀判斷的影響試題可分為客觀性試題和主觀性試題。客觀性試題的常見形式有多項(xiàng)選擇題、簡答題、MC-完型填空等。客觀性試題的答案是唯一的，因此可用機(jī)器閱卷。大規(guī)模標(biāo)準(zhǔn)化考試通常采用較多的客觀性試題，以保證評分的客觀性。主觀性試題的常見形式有命題作文、翻譯、回答問題等。主觀題的閱卷需要采用一系列質(zhì)量控制措施，包括用計(jì)算機(jī)進(jìn)行調(diào)整，保證閱卷員本人、閱卷員之間、以及閱卷點(diǎn)之間評分的一致性。也有一些題型如簡答題、綜合填空等，設(shè)計(jì)試題時(shí)事先規(guī)定一定數(shù)量的可接受答案，可以稱為半客觀題，目的是使其盡可能兼具客觀題和主觀題的優(yōu)點(diǎn)；

(3) 試題設(shè)計(jì)的質(zhì)量控制：為了保證質(zhì)量，試題設(shè)計(jì)一般要經(jīng)過“命題--初審--預(yù)測--試題項(xiàng)目分析--審題--構(gòu)卷--施考--閱卷及統(tǒng)計(jì)分析--建立題庫”等環(huán)節(jié)。其中命題應(yīng)有命題要求，命題員要經(jīng)過專門訓(xùn)練，考核內(nèi)容要有一定的覆蓋率；進(jìn)行試題項(xiàng)目分析和建立題庫要有一定的數(shù)學(xué)模型，如經(jīng)典測試?yán)碚摰恼娣謹(jǐn)?shù)模型、試題響應(yīng)理論模型等，使每道試題都有客觀數(shù)據(jù)作為參數(shù)，保證每一試卷在使用前整卷的平均難易度、試題難易度及區(qū)分度的分布情況等都能滿足預(yù)定的質(zhì)量要求。對于標(biāo)準(zhǔn)化考試來說一切應(yīng)經(jīng)過檢驗(yàn)，且有實(shí)驗(yàn)數(shù)據(jù)支持。為了保證質(zhì)量，標(biāo)準(zhǔn)化考試的試題在考前和考后都是保密的。

3) 過程的標(biāo)準(zhǔn)化

(1) 標(biāo)準(zhǔn)化考試要公布考試大綱。標(biāo)準(zhǔn)化考試作為一種大規(guī)模考試，應(yīng)當(dāng)讓廣大考生和用戶了解考試內(nèi)容、試卷構(gòu)成、試題形式、記分體制等。讓考生在答題過程中能充分表現(xiàn)自己的實(shí)際能力，使考試能保持評份標(biāo)準(zhǔn)的穩(wěn)定性，并且使用戶能了解分?jǐn)?shù)的含義，正確使用考試結(jié)果，為此必須事先公布考試大綱?？荚嚧缶V應(yīng)相對穩(wěn)定，如果要改變題型，同樣應(yīng)經(jīng)過充分實(shí)驗(yàn)研究，經(jīng)事先公布后才能實(shí)施，以保證考試的穩(wěn)定性；

(2) 標(biāo)準(zhǔn)化考試的分?jǐn)?shù)應(yīng)具有可比性，因此通常要對不同考次的結(jié)果進(jìn)行等值處理。等值處理可以采用線性等值法、等價(jià)百分位法或試題響應(yīng)理論的分?jǐn)?shù)等值處理方法等，把原始分轉(zhuǎn)換成換算分。只有換算分才能對考生成績以及教學(xué)過程提供大量反饋信息。根據(jù)參照系的不同，記分體制分為正態(tài)分制、等級分制、百分制等。正態(tài)分制要求建立考生成績常模，用考生在考生總體中的位置來表示考生的成績，通常用均值和標(biāo)準(zhǔn)差表示。以考生成績的正態(tài)分布作為參照系的考試稱為常模參照考試。采用正態(tài)分制的考生成績可與考生總體比較、不同考次可以比較、學(xué)校與學(xué)?？梢员容^、不同科目也可以比較，因此考試結(jié)果能提供大量反饋信息，成為各級用戶決策的依據(jù)。正態(tài)分是間接解釋的分?jǐn)?shù)，而等級分則是把語言能力劃分為若干等級，每級所表示的語言能力從詞匯、語法、讀音、交際功能、流利程度、語言復(fù)雜程度等方面進(jìn)行描述，根據(jù)考生的實(shí)際能力進(jìn)行判定，等級分是可以直接解釋的分?jǐn)?shù)。這種以某種尺度作為參照系的考試稱為尺度參照考試。也可以把兩者結(jié)合起來，大學(xué)英語四、六級考試以教學(xué)大綱為依據(jù)，又參照一定的常模建立記分體制，同時(shí)又考慮到我國采用百分制的習(xí)慣，以 72 分作為均值，12 分為一個(gè)標(biāo)準(zhǔn)差，60 分為及格，因此大學(xué)英語四、六級考試是一種尺度相關(guān)常模參照考試；

(3) 標(biāo)準(zhǔn)化考試還應(yīng)當(dāng)定期發(fā)布成績公報(bào)，常模參照考試要公布建立常模的依據(jù)，提供使用手冊等；

(4) 過程的標(biāo)準(zhǔn)化還包括施考條件的標(biāo)準(zhǔn)化，如考試時(shí)間、考場條件、考場指令等都要標(biāo)準(zhǔn)化，使不同的考生具有相同的考試條件。

•命題過程的質(zhì)量控制

考試過程是環(huán)繞試卷進(jìn)行的，在考試過程的諸多環(huán)節(jié)中起關(guān)鍵作用的是試卷的質(zhì)量。大規(guī)模標(biāo)準(zhǔn)化考試要保持評價(jià)標(biāo)準(zhǔn)的穩(wěn)定性，必須從保證試卷質(zhì)量著手。試卷的設(shè)計(jì)要解決考什么和怎么考的問題，同時(shí)要保持評分的一致性。前者涉及考試的效度，后者涉及考試的信度。

下面分別從命題過程、記分體制、作文分調(diào)整及考務(wù)管理等方面說明大學(xué)英語四、六級考試的質(zhì)量控制措施。

•命題流程

大規(guī)模標(biāo)準(zhǔn)化考試由于規(guī)模大，不得不大量采用多項(xiàng)選擇題，以便實(shí)現(xiàn)機(jī)器閱卷并保證評分的客觀性和一致性。實(shí)驗(yàn)研究證明多項(xiàng)選擇題不但可以考核記憶，也可考核判斷、分析、推理，甚至可以考核應(yīng)用。多項(xiàng)選擇題雖然形式簡單，閱卷方便，但是其命題卻是一項(xiàng)專業(yè)性極強(qiáng)的工作。

為了保證多項(xiàng)選擇題的質(zhì)量，不但要有一支經(jīng)過專業(yè)訓(xùn)練的命題員隊(duì)伍，而且整個(gè)命題過程包括許多環(huán)節(jié)，一般來說，用于大規(guī)模標(biāo)準(zhǔn)化考試的多項(xiàng)選擇題，其命題流程應(yīng)包含如下環(huán)節(jié)：

大規(guī)模標(biāo)準(zhǔn)化考試中多項(xiàng)選擇題的命題流程

•命題要求

大學(xué)英語四、六級考試委員會(huì)以三個(gè)考試中心為基礎(chǔ)建立了相當(dāng)穩(wěn)定的命題員網(wǎng)絡(luò)。命題員都經(jīng)過專門訓(xùn)練，熟悉客觀題和主觀題的命題原則。命題員送交的客觀題在題眼的確定、題干和選擇項(xiàng)的設(shè)計(jì)等方面都要符合多項(xiàng)選擇題的基本技術(shù)指標(biāo)。此外，考試委員會(huì)還對各部分試題提出了具體的命題要求，從考核什么語言技能到怎么考核有關(guān)語言技能，都提出了明確的可以操作的要求，以保證考試的效度。

1) 聽力理解部分命題要求

聽力理解部分的目的是測試學(xué)生獲取口頭信息的能力，包括理解主旨大意、重要的事實(shí)細(xì)節(jié)、理解隱含的意義、言語的交際功能、理解談話人的觀點(diǎn)態(tài)度等。

聽力理解部分主要考核語言能力，要避免測驗(yàn)智力、記憶力或背景知識等語言外的能力。

聽力理解部分目前分為對話和短篇聽力材料兩部分，所選材料應(yīng)當(dāng)是題材熟悉的對話、講話、敘述、解說等，語言要口語化，避免采用書面語體太強(qiáng)的材料。所用詞語不超出教學(xué)大綱詞匯表規(guī)定的范圍。

命題時(shí)應(yīng)考慮能夠全面考核教學(xué)大綱所規(guī)定的各種聽力微技能。在構(gòu)成一張?jiān)嚲頃r(shí)各種聽力微技能都要占一定比例。

2) 閱讀理解部分命題要求

閱讀理解部分的目的是測試學(xué)生通過閱讀獲取信息的能力。包括掌握所讀材料的主旨和大意；了解說明主旨和大意的事實(shí)和細(xì)節(jié)；既理解字面的意思，也能根據(jù)所讀材料進(jìn)行一定的判斷和推論；既理解個(gè)別句子的意義，也理解上下文的邏輯關(guān)系，理解文章的深層含義。閱讀理解不但要求準(zhǔn)確，而且要有一定的速度。

閱讀材料的選材原則是：

(1) 題材廣泛，可以包括人物傳記、社會(huì)、文化、日常知識、科普常識等，但是所涉及的背景知識應(yīng)能為學(xué)生所理解；

(2) 體裁多樣，可以包括敘述文、說明文、議論文等，應(yīng)體現(xiàn)學(xué)術(shù)英語（ English for Academic Purposes ）的特點(diǎn)；

(3) 語言難度及詞匯量符合教學(xué)大綱規(guī)定的范圍。

閱讀理解能力包括三個(gè)層次：句子層次、語篇層次、以及推理判斷層次，命題時(shí)應(yīng)考慮到各個(gè)層次的閱讀能力要有一定的比例。

3) 詞語用法和語法結(jié)構(gòu)部分命題要求

詞語用法部分主要測試學(xué)生對詞和短語的意義、搭配和用法的掌握程度，語法結(jié)構(gòu)部分則主要測試正確使用語法結(jié)構(gòu)的能力。詞語用法和語法結(jié)構(gòu)題在四、六級中各占一定比例，但都不應(yīng)超出教學(xué)大綱規(guī)定的范圍。

4) 完形填空部分命題要求

完形填空部分的目的是測試學(xué)生綜合運(yùn)用語言的能力。

完形填空部分的選材原則與閱讀理解部分相同，要求學(xué)生在全面理解內(nèi)容的基礎(chǔ)上答題。命題時(shí)要考慮到要求填入的詞項(xiàng)中虛詞和實(shí)詞各占一定比例，并且要包含若干必須在正確理解全文后才可能答對的題項(xiàng)。

5) 綜合改錯(cuò)部分命題要求

綜合改錯(cuò)部分的目的是測試學(xué)生綜合運(yùn)用語言的能力，不但要求學(xué)生能夠識別錯(cuò)誤而且能夠?qū)懗稣_的語言形式，因此是一種對語言表達(dá)能力的測試。

綜合改錯(cuò)部分的選材要求是題材熟悉、沒有背景知識方面的困難、文章難度略淺于閱讀理解材料、文章內(nèi)容要有一定的邏輯展開。命題時(shí)在短文中安排 10 個(gè)錯(cuò)誤（不含拼寫錯(cuò)誤或標(biāo)點(diǎn)錯(cuò)誤）要求學(xué)生改正。錯(cuò)誤分三種類型，一種是需要改正某個(gè)詞，一種是需要增添某個(gè)詞，一種是需要?jiǎng)h除某個(gè)詞。需要改正的錯(cuò)誤有的是局部性的，有的是全局性的，涉及篇章結(jié)構(gòu)；兩者有一定比例，要求考生在全面理解內(nèi)容的基礎(chǔ)上改正錯(cuò)誤，使短文的意思完整、語言正確。

6) 短文寫作部分命題要求

短文寫作部分的目的是考核學(xué)生運(yùn)用英語書面表達(dá)思想的能力，要求學(xué)生在 30 分鐘內(nèi)寫出一篇短文，四級不少于 100 詞，六級為不少于 120 詞。試卷上可能給出題目、或要求看圖作文、或根據(jù)所給文章（英語或漢語）寫成摘要或大意、或給出關(guān)鍵詞或提綱要求寫成短文等等。短文寫作部分的命題原則是要做到使考生要求明確，使考生能夠展開思想，學(xué)習(xí)好的和學(xué)習(xí)一般的學(xué)生都有內(nèi)容可寫，但要避免構(gòu)思方面的困難，不含有背景知識方面的困難，以便達(dá)到考核書面表達(dá)能力的目的。評分時(shí)主要考慮作文是否切題、能否正確表達(dá)思想、意義是否連貫、文理是否基本通順并無重大語言錯(cuò)誤等。

•題庫建設(shè)

題庫建設(shè)是一個(gè)考試機(jī)構(gòu)的基本建設(shè)，為了建設(shè)題庫，大學(xué)英語四、六級考試的試卷在考前考后都嚴(yán)格保密。題庫要有一定的數(shù)學(xué)模型，沒有數(shù)學(xué)模型的試題的集合稱為題堆（Item Pool），目前大學(xué)英語四、六級考試的題庫建設(shè)采用經(jīng)典測驗(yàn)理論（CTT）數(shù)學(xué)模型，今后擬逐步過渡到采用試題響應(yīng)理論（IRT）數(shù)學(xué)模型，并在此基礎(chǔ)上逐步開發(fā)大學(xué)英語四、六級考試自適應(yīng)計(jì)算機(jī)考試系統(tǒng)。

大學(xué)英語考試的數(shù)據(jù)處理

大學(xué)英語四、六級考試每次考試結(jié)束后在發(fā)布考試成績之前，要經(jīng)過一系列的統(tǒng)計(jì)處理，分為數(shù)據(jù)輸入、數(shù)據(jù)處理、成績計(jì)算及統(tǒng)計(jì)分析三部分，其流程如下：

大學(xué)英語四、六級考試機(jī)器閱卷及統(tǒng)計(jì)分析流程圖

大學(xué)英語四、六級考試每年考生超過一百萬，因此只能依靠機(jī)器閱卷。為了保證機(jī)器閱卷的精度及正確性，在數(shù)據(jù)輸入階段還要采取大量質(zhì)量保證措施。

數(shù)據(jù)輸入階段結(jié)束后即開始數(shù)據(jù)處理階段，包括 IRT 等值處理、作文分調(diào)整、考生成績正態(tài)化處理三個(gè)步驟。大學(xué)英語四、六級考試為了進(jìn)行等值處理，每次考試前一周要組織對比考試，建立 IRT 等值處理模型。

在對客觀題進(jìn)行等值處理后，對作文分進(jìn)行調(diào)整。進(jìn)行作文分調(diào)整的目的是濾除閱卷過程中閱卷員評分的主觀誤差，保證主觀題的閱卷信度。這一步驟完成后輸出客觀題成績在 25 分以下而作文成績在 10 分以上的異常考生清單，這種客觀題得分極低而主觀題得分相當(dāng)高的異常情況說明必然在某一環(huán)節(jié)上發(fā)生了差錯(cuò)。這時(shí)首先檢查考生的答題紙，再查作文成績，檢查是否登分錯(cuò)誤、或閱卷員評分錯(cuò)誤、或因?yàn)榭忌铄e(cuò) A、B 卷代號而造成錯(cuò)誤等等。在以上步驟都確認(rèn)正確無誤后，輸出作文分調(diào)整模型。

最后進(jìn)行各種統(tǒng)計(jì)，包括全國的、各省市的、各校的成績統(tǒng)計(jì)。作為數(shù)據(jù)處理的最后一環(huán)還要進(jìn)行試題分析、完成試卷檢驗(yàn)報(bào)告。

大學(xué)英語四、六級考試的數(shù)據(jù)處理采取如此嚴(yán)格的質(zhì)量控制措施是為了保證考試的信度，最終也是為了保證考試的效度，因?yàn)闆]有信度就談不上效度。

•等值處理

大規(guī)模標(biāo)準(zhǔn)化考試的重要標(biāo)志之一是分?jǐn)?shù)的可比性。為此，首先必須根據(jù)考試的性質(zhì)和目的確定記分體制，使分?jǐn)?shù)具有可解釋性，能夠說明分?jǐn)?shù)所反映的考生實(shí)際水平，以便于用戶使用；此外還必須通過等值處理，使不同考次的分?jǐn)?shù)做到等值，達(dá)到可比的目的，并保持穩(wěn)定的測量標(biāo)準(zhǔn)，也就是保持記分體制的參照系不變。

大學(xué)英語四、六級考試等值處理的方法及其質(zhì)量控制措施見《大學(xué)英語四、六級考試效度研究》一書。

•作文分調(diào)整

作文是一種對語言表達(dá)能力的考試。學(xué)生運(yùn)用語言的結(jié)果，可以直接觀察，因此作文是一種直接考試。只要題目出得好，作文對考生語言能力的測量最準(zhǔn)確，效度最高。而且作文這種題型最難搞應(yīng)試培訓(xùn)，也最難搞題海戰(zhàn)術(shù)。要提高學(xué)生的成績，唯一途徑是扎扎實(shí)實(shí)搞好課堂教學(xué)，提高學(xué)生實(shí)際英語能力。從組織考試的角度來看，采用作文題的困難在于如何保證評分的一致性。

作文題是主觀題。所謂主觀題只是指在閱卷過程中評分要依靠閱卷員的主觀判斷的題目。至于命題和答題，當(dāng)然必然是主觀的。這些因素最終都會(huì)影響到對作文閱卷的判分。要使作文卷的分?jǐn)?shù)能正確地反映考生的真實(shí)能力，如果不考慮考生本身這一因素，則影響最大的主要是命題和閱卷兩個(gè)因素。

大學(xué)英語四、六級考試中安排短文寫作這一部分，主要目的是考核學(xué)生用英語進(jìn)行書面表達(dá)的能力，也就是說主要是考核語言運(yùn)用能力，因此大學(xué)英語四、六級考試的作文部分不是自由作文，而是有控制的作文，對考生寫什么內(nèi)容有比較明確的要求，用各種明確的方式如提綱、圖表、關(guān)鍵詞等加以規(guī)定；但提綱常用中文給出，以避免考生將提綱中的文字直接抄錄進(jìn)作文。采用有控制的作文也有利于提高評分的一致性。

對作文評分影響最大的是評分過程。同一篇作文，不同的閱卷員可能給出不同的分?jǐn)?shù)。提高作文閱卷的信度就是要保證評分的一致性，包括閱卷員本人的一致性（intra-marker consistency）、閱卷員之間的一致性（inter-marker consistency）、和閱卷點(diǎn)之間的一致性（inter-centre consistency），要采取一定的質(zhì)量控制措施盡量減少和濾除閱卷員評分的主觀性對分?jǐn)?shù)客觀性的影響。

近年來在大規(guī)模標(biāo)準(zhǔn)化考試中采用作文題的重要性已為大家所接受，對作文評分的研究發(fā)展也很快。作文題的評分通常有兩種方法：一種是綜合法（holistic approach），一種是分析法（analytic approach）。分析法是把一篇作文分解為若干要點(diǎn)，如內(nèi)容、結(jié)構(gòu)、文章連貫性（cohesion）、語法、詞匯等，不同的要點(diǎn)也可作不同的加權(quán)處理，各要點(diǎn)得分的總和即為全篇得分。綜合法是憑閱卷員通讀一遍的總體印象打分。綜合法的優(yōu)點(diǎn)是能從總體上把握通篇印象，評卷速度比較快。此外，為了提高閱卷的信度也有采用兩讀的方法，即每篇作文由兩名閱卷員分別獨(dú)立評分，若分?jǐn)?shù)差兩檔以上，由第三名閱卷員重判?？紤]到大學(xué)英語四、六級考試規(guī)模太大，不可能進(jìn)行兩讀，因此，決定采用綜合法和一讀的評分方法，然后根據(jù)考生的客觀題得分進(jìn)行調(diào)整，濾除系統(tǒng)誤差。大學(xué)英語四、六級考試實(shí)踐和效度研究結(jié)果證明，大學(xué)英語四、六級考試目前采用的作文分調(diào)整方法能保證閱卷信度?！?

大學(xué)英語考試效度研究

大學(xué)英語四、六級考試到 92 年 9 月時(shí)已實(shí)施五年，為了驗(yàn)證大學(xué)英語四、六級考試的效度，進(jìn)一步改革與完善大學(xué)英語四、六級考試，自 92 年 10 月起至 95 年 12 月進(jìn)行了為期三年的大學(xué)英語四、六級考試效度研究。

•大學(xué)英語考試效度研究的目的

1. 論證大學(xué)英語四、六級考試作為一種大規(guī)模標(biāo)準(zhǔn)化考試的可靠性、科學(xué)性，檢驗(yàn)大學(xué)英語四、六級考試能否為準(zhǔn)確測量學(xué)生英語水平提供科學(xué)的手段；

2. 改善大學(xué)英語考試的后效，推動(dòng)教學(xué)大綱的貫徹執(zhí)行，使考試更好地為教學(xué)服務(wù)；

3. 如有必要，改進(jìn)大學(xué)英語考試的設(shè)計(jì)，采用新題型，完善考試的格式和形式；

4. 驗(yàn)證大學(xué)英語四、六級考試的統(tǒng)計(jì)分析手段，驗(yàn)證它能否為教學(xué)提供必要的動(dòng)態(tài)信息；

5. 推動(dòng)對語言測試和大規(guī)模標(biāo)準(zhǔn)化考試的理論研究。

•大學(xué)英語考試效度研究的組織

大學(xué)英語四、六級考試效度研究是經(jīng)國家教委和英國文化委員會(huì)批準(zhǔn)的中英合作項(xiàng)目，為期三年，其中英方得到了英國政府海外開發(fā)署的支持，中方由全國大學(xué)英語四、六級考試委員會(huì)負(fù)責(zé)，并成立了專門的效度研究小組；英方由雷丁大學(xué)（University of Reading）應(yīng)用語言學(xué)研究中心 ( CALS ) 負(fù)責(zé)。

•大學(xué)英語考試效度研究的內(nèi)容

大學(xué)英語四、六級考試效度研究涉及結(jié)構(gòu)效度（construct validity）、內(nèi)容效度（content validity）、同期效度（concurrent validity）、預(yù)期效度（predictive validity）、表面效度（face validity）等，此外還對題型、記分體制、統(tǒng)計(jì)分析軟件、考務(wù)管理等方面進(jìn)行了全面的研究檢驗(yàn)。在三年研究期間，制定了大學(xué)英語四、六級考試內(nèi)容規(guī)范、完成了大學(xué)英語四、六級考試范型試卷、組織了各種大規(guī)模的對比考試、實(shí)驗(yàn)研究、問卷調(diào)查、座談會(huì)等，此外還進(jìn)行了閱讀測試過程的內(nèi)省法心理研究。通過對所得到的大量數(shù)據(jù)及實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)分析，可以得出如下結(jié)論：

1）大學(xué)英語四、六級考試是一項(xiàng)信度極高的考試，每次考試客觀題的內(nèi)部信度都達(dá)到0.9 以上；

2）大學(xué)英語四、六級考試是一項(xiàng)效度相當(dāng)高的考試，回收問卷中有 92%的教師認(rèn)為大學(xué)英語四、六級考試能反映學(xué)生的實(shí)際英語水平；

3）大學(xué)英語四、六級考試是一種尺度相關(guān)-常模參照性考試，其設(shè)定的及格線與教師對學(xué)生是否及格的判斷，相關(guān)高達(dá) 0.82；大學(xué)英語考試成績與教師判斷的學(xué)生成績，名次相關(guān)高達(dá) 0.7，這在大規(guī)模標(biāo)準(zhǔn)化考試中是極難做到的；

4）大學(xué)英語四、六級考試的內(nèi)容設(shè)計(jì)合理，86%以上的教師認(rèn)為各部分內(nèi)容比例適當(dāng)，內(nèi)容對各專業(yè)學(xué)生均公正；

5）大學(xué)英語四、六級考試已建立了一整套完整的制度；在試卷設(shè)計(jì)方面，從命題、預(yù)測、試題項(xiàng)目分析到題庫建設(shè)等都有嚴(yán)格的質(zhì)量控制措施，保證了該考試學(xué)術(shù)水平的穩(wěn)定性；在統(tǒng)計(jì)分析及成績發(fā)布方面，從自動(dòng)閱卷、IRT 等值處理、作文分調(diào)整到成績正態(tài)化處理等都有成熟的措施，保證了成績報(bào)導(dǎo)的科學(xué)性和一致性；在考務(wù)組織方面有嚴(yán)格的制度，保證了考試的嚴(yán)密性和公正性；

6）大學(xué)英語四、六級考試已開發(fā)了一系列計(jì)算機(jī)軟件，為考試的組織、實(shí)施、管理和成績的統(tǒng)計(jì)計(jì)算提供了條件，實(shí)現(xiàn)了考試過程管理的計(jì)算機(jī)化，每次考試為各級教學(xué)行政部門進(jìn)行決策提供了大量信息；

7）大學(xué)英語四、六級考試實(shí)施八年來已建立了一支有相當(dāng)規(guī)模的、老中青結(jié)合的專業(yè)隊(duì)伍，并已經(jīng)具備有一定規(guī)模的計(jì)算機(jī)設(shè)備及圖書資料，有能力開展語言測試方面的重要研究。

計(jì)算機(jī)自適應(yīng)考試

傳統(tǒng)的測驗(yàn)，不論考生水平高低全部要接受同一批題目的測驗(yàn)，結(jié)果對水平低的考生來說，那些難度大的題目，根本無法作答，反而引起焦慮。對高水平考生來說，那些難度小的題目，又測不出考生的真實(shí)水平，徒然浪費(fèi)精力。理論的分析與實(shí)踐的經(jīng)驗(yàn)都證明，當(dāng)題目難度跟考生水平相適應(yīng)時(shí)，題目所提供的信息量最大，考生的積極性最高，測驗(yàn)效度也就最好。

八十年代中期興起的機(jī)助自適應(yīng)測驗(yàn)解決了主動(dòng)適應(yīng)考生狀況的“因人施測”問題。其理論基礎(chǔ)題目響應(yīng)理論（IRT）建立了深刻地、綜合地反映考生作答反應(yīng)與題目質(zhì)量及能力水平間關(guān)系的非線性模型，估出的能力水平不依賴于特定的施測題目樣本，而且能明確算出信息量即測量精度，因而，即使兩考生各自接受了一批難度變化不同的測驗(yàn)，據(jù)此估出的能力水平值也是可以相互比較，處于同一量表上的值。

編制自適應(yīng)測驗(yàn)，首先要建立大型題庫，題庫要有一定的教學(xué)模型，沒有教學(xué)模型的試題稱為題堆，在測試中沒有使用價(jià)值。機(jī)助自適應(yīng)考試以題目響應(yīng)理論（IRT）為教學(xué)模型建立題庫，這是一項(xiàng)要耗費(fèi)大量人力和財(cái)力的工程。而考試的施測大體分為兩個(gè)階段，一是考生能力水平的探查階段。具體做法可以是，從題庫中隨機(jī)調(diào)取一中等難度水平題目施測；若考生能正確作答，則繼之以更難的題目；若考生不能正確作答，則繼之以較易的題目，到考生既有答對題目又有答錯(cuò)題目時(shí)，就可以初步估出其能力值。第二步針對初步估計(jì)能力值繼續(xù)從題庫中挑出難度最適當(dāng)、信息量最大的題目施測，并不斷地估計(jì)考生能力，逐步向考生的能力真值逼近，直到滿足測量精度要求為止，從面對考生的真實(shí)能力作出準(zhǔn)確的評價(jià)。

自九十年代初期開始，全國大學(xué)英語四、六級考試委員會(huì)一直致力于題目響應(yīng)理論和“機(jī)助自適應(yīng)測驗(yàn)”的研究和開發(fā)。目前 IRT 已成功地用于 CET 分?jǐn)?shù)等值處理過程中，機(jī)助自適應(yīng)測驗(yàn)題庫也正在建設(shè)和完善過程中，我們希望不久將推出 CET 機(jī)助自適應(yīng)測驗(yàn)系統(tǒng)，為中國英語測驗(yàn)開辟一塊新的園地。

大學(xué)英語口語考試

為了進(jìn)一步推動(dòng)我國大學(xué)英語教學(xué)，適應(yīng)國家改革開放的需要，使學(xué)生更加重視英語口語學(xué)習(xí)，獲得較強(qiáng)的交際能力，經(jīng)教育部高等教育司批準(zhǔn)，全國大學(xué)英語四、六級考試委員會(huì)將開始實(shí)施口語考試（CET- Spoken English Test），1999 年 5 月起將首先在部分重點(diǎn)院校試行。報(bào)考對象暫定為大學(xué)英語四、六級考試成績達(dá)到 80 分的在校本科生及在校研究生，符合報(bào)考條件者自愿參加。考試每年舉行兩次。

考試成績合格者發(fā)給證書。證書分為三個(gè)等級，A 等表示能用英語就熟悉的題材進(jìn)行口語交際，基本上沒有困難；B 等表示能用英語就熟悉的題材進(jìn)行口語交際，有些困難，但不影響理解；C 等表示具有初步的英語口語交際能力。

高級英語閱讀能力測試

根據(jù)全國大學(xué)英語教學(xué)大綱規(guī)定，在基礎(chǔ)階段的英語教學(xué)完成以后，大學(xué)英語必須繼續(xù)進(jìn)行更高一級的專業(yè)英語閱讀教學(xué)。這一課程也被大綱列為全國大學(xué)生的必修課，是繼基礎(chǔ)階段完成以后的必要階段。是保證實(shí)現(xiàn)教學(xué)目標(biāo)的重要環(huán)節(jié)。

但是自 1985 年以來，專業(yè)英語閱讀教學(xué)并未受到足夠的重視。專業(yè)英語閱讀的教學(xué)與測試的實(shí)踐仍處于比較“自由化”的狀態(tài)。不同院校對此課程的認(rèn)識不同，重視程度不同，采用的教材不同，測試方法也不同。這樣，教學(xué)大綱中規(guī)定的培養(yǎng)“以英語為工具通過閱讀獲取專業(yè)所需信息的能力”這一根本的教學(xué)目的就有可能落空。專業(yè)英語閱讀課程沒有受到足夠重視的原因是多方面的，如缺乏合適的教材，英語教師缺乏專業(yè)知識，專業(yè)教師缺乏英語能力等等。其中一個(gè)重要原因是沒有適當(dāng)?shù)臋z查手段。

對于專業(yè)英語閱讀能力的培養(yǎng)，大多數(shù)高等院校還是認(rèn)識其必要性的，因?yàn)檫@一能力對大學(xué)生今后在專業(yè)上的提高和發(fā)展至關(guān)重要。為此，早在 1988 年教育部高教司外語處就提出要“正確理解全面貫徹執(zhí)行教學(xué)大綱”。近年來，在高教司外語處的領(lǐng)導(dǎo)下，全國高校已開始重視專業(yè)閱讀課程的教學(xué)。隨著專業(yè)英語閱讀教學(xué)的不斷正規(guī)化，客觀上要求在我國部分重點(diǎn)高校范圍內(nèi)為專業(yè)英語閱讀教學(xué)提供一種測試手段。

因此，高級英語閱讀能力測試（AERT）項(xiàng)目的長遠(yuǎn)目標(biāo)是通過設(shè)計(jì)一個(gè)有理論基礎(chǔ)的、高效度、高信度的高級英語閱讀考試來推動(dòng)全國的大學(xué)專業(yè)英語閱讀的教學(xué)，以期最終真正、徹底地實(shí)現(xiàn)大學(xué)英語教學(xué)大綱所規(guī)定的目標(biāo)，使我國大學(xué)生真正具備“以英語為工具獲取專業(yè)所需的信息的能力”，更好地為我國的現(xiàn)代化建設(shè)服務(wù)。

在基礎(chǔ)階段，英語閱讀教學(xué)與測試（如 CET 的 reading comprehension test）仍以提高學(xué)生的英語語言能力為目標(biāo)，而在高級英語閱讀階段，教學(xué)與測試的重點(diǎn)應(yīng)轉(zhuǎn)向閱讀的各種技能和策略的培養(yǎng)。因此，AERT項(xiàng)目的近期目標(biāo)是：（1）設(shè)計(jì)一個(gè)高效度、高信度的高級英語閱讀考試，使之能最大限度地體現(xiàn)專業(yè)英語閱讀階段的教學(xué)目標(biāo)。（2）不斷完善 AERT 考試，使之能最有效的測量大學(xué)生專業(yè)英語閱讀的能力。（3）通過AERT 考試的反撥作用來推動(dòng)大學(xué)三、四年級的專業(yè)英語閱讀教學(xué)。

目前 AERT 研究已經(jīng)完成，已經(jīng)建立了一套完整的、有理論依據(jù)的、有數(shù)據(jù)支持的、高效度、高信度的檢查專業(yè)英語閱讀教學(xué)效果的、衡量學(xué)生專業(yè)英語閱讀能力的考試體系，包括考試的實(shí)施細(xì)則，命題及選材的要求和原則、閱卷標(biāo)準(zhǔn)，分?jǐn)?shù)調(diào)整，數(shù)據(jù)分析，成績報(bào)道等諸多的標(biāo)準(zhǔn)化考試必備的因素。在此基礎(chǔ)上，已經(jīng)完成了 AERT 范型卷的設(shè)計(jì)和命題。

為了對范型卷的各項(xiàng)指標(biāo)進(jìn)行檢測，在上海和山東進(jìn)行了兩次大規(guī)模的試測。研究證實(shí)了對中國大學(xué)生專業(yè)英語閱讀的理論模式的假設(shè)，肯定了閱讀能力的可分解性，即除了一個(gè)最主要的一般閱讀能力因素外，還存在著快速閱讀與仔細(xì)閱讀這兩種不同的閱讀方式的因素以及在篇章水平上的閱讀與在詞匯水平上的閱讀這兩種不同層次上的閱讀的因素。

隨著對專業(yè)英語閱讀教學(xué)與測試的不斷重視，隨著這方面的理論研究的不斷深入和實(shí)踐經(jīng)驗(yàn)的不斷積累，專業(yè)英語閱讀的教學(xué)與測試將會(huì)與基礎(chǔ)階段的分級教學(xué)和測試一樣逐步走上正規(guī)化的道路。專業(yè)英語閱讀將會(huì)真正成為大學(xué)生的一門必修課，中國的大學(xué)畢業(yè)生將會(huì)真正具備“以英語為工具通過閱讀獲取專業(yè)所需的信息”的能力。

AERT“高級英語閱讀能力測試”將以一定方式提供給各校使用。

類別：高職教育 | 評論(2) | 瀏覽(1053) | 收藏

一共有 2 條評論

2樓 [匿名]guest 2006年11月23日 16:27:01 Says:

樓主，向你求救阿！能告訴我?guī)斓潞屠锊榈律岢龅腒-R20公式和K-R20公式嗎，還有兩個(gè)公式的簡介阿？急用！感激不盡阿！

1樓 [樓主]計(jì)算機(jī)培訓(xùn)天地 2006年09月15日 15:06:47 Says:

關(guān)于問卷的信度分析
一、概念：

信度是指根據(jù)測驗(yàn)工具所得到的結(jié)果的一致性或穩(wěn)定性，反映被測特征真實(shí)程度的指標(biāo)。一般而言，兩次或兩個(gè)測驗(yàn)的結(jié)果愈是一致，則誤差愈小，所得的信度愈高，它具有以下特性：

u 信度是指測驗(yàn)所得到結(jié)果的一致性或穩(wěn)定性，而非測驗(yàn)或量表本身；

u 信度值是指在某一特定類型下的一致性，非泛指一般的一致性，信度系數(shù)會(huì)因不同時(shí)間、不同受試者或不同評分者而出現(xiàn)不同的結(jié)果；

u 信度是效度的必要條件，非充分條件。信度低效度一定低，但信度高未必表示效度也高；

u 信度檢驗(yàn)完全依賴于統(tǒng)計(jì)方法。

信度可分為：內(nèi)在信度：對一組問題是否測量同一個(gè)概念，同時(shí)組成量表題項(xiàng)的內(nèi)在一致性程度如何；常用的檢測方法是Cronbach’s alpha系數(shù)。外在信度：對相同的測試者在不同時(shí)間測得的結(jié)果是否一致，再測信度是外在信度最常用的檢驗(yàn)法。

二、信度指標(biāo)：

1. 用信度系數(shù)來表示信度的大小。信度系數(shù)越大，表明測量的可信程度越大。究竟信度系數(shù)要多少才算有高的信度。學(xué)者DeVellis(1991)認(rèn)為，0.60～0.65（最好不要）；0.65～0.70（最小可接受值）；0.70～0.80（相當(dāng)好）；0.80～0.90（非常好）。由此，一份信度系數(shù)好的量表或問卷，最好在0.80以上，0.70至0.80之間還算是可以接受的范圍；分量表最好在0.70以上，0.60至0.70之間可以接受。若分量表的內(nèi)部一致性系數(shù)在0.60以下或者總量表的信度系數(shù)在0.80以下，應(yīng)考慮重新修訂量表或增刪題項(xiàng)。

2. 信度指標(biāo)多以相關(guān)系數(shù)來表示：大致可分為三類：穩(wěn)定系數(shù)（跨時(shí)間的一致性）、等值系數(shù)（跨形式的一致性）和內(nèi)在一致性系數(shù)（跨項(xiàng)目的一致性）。

三、信度分析方法：

u 重測信度法：

用同樣的問卷對同一被測間隔一定時(shí)間的重復(fù)測試，也可稱作測試——再測方法，計(jì)算兩次測試結(jié)果的相關(guān)系數(shù)。很顯然這是穩(wěn)定系數(shù)，即跨時(shí)間的一致性。重測信度法適用于事實(shí)性的問卷，也可用于不易受環(huán)境影響的態(tài)度、意見式問卷。由于重測信度需要對同一樣本試測兩次，而被測容易受到各種事件、活動(dòng)的影響，所以間隔時(shí)間需要適當(dāng)。較常用者為間隔二星期或一個(gè)月。

u 復(fù)本信度法（等同信度法）：

復(fù)本信度法是讓被測一次填寫兩份問卷復(fù)本，計(jì)算兩個(gè)復(fù)本的相關(guān)系數(shù)。由于這種方法要求兩個(gè)復(fù)本除表達(dá)方式不同外，在內(nèi)容、格式、難度和對應(yīng)題項(xiàng)的提問方式等方面都要完全一致，所以復(fù)本信度屬于等值系數(shù)。在實(shí)際的調(diào)查中，問卷很難達(dá)到這種要求，這種方法較少被采用。

u 折半信度法：

折半信度法是指將測量項(xiàng)目按奇偶項(xiàng)分成兩半，分別記分，測算出兩半分?jǐn)?shù)之間的相關(guān)系數(shù)(實(shí)際應(yīng)用EXCEL軟件)，再據(jù)此確定整個(gè)測量的信度系數(shù)RXX。折半信度屬于內(nèi)在一致性系數(shù)，測量的是兩半項(xiàng)目間的一致性。這種方法不適合測量事實(shí)性問卷，常用于態(tài)度、意見式問卷的信度分析。在問卷調(diào)查中，態(tài)度測量最常見的形式是5級李克特量表。進(jìn)行折半信度分析時(shí)，如果量表中含有反意題項(xiàng)，應(yīng)先將反意題項(xiàng)的得分作逆向處理，以保證各題項(xiàng)得分方向的一致性，然后將全部題項(xiàng)按奇偶或前后分為盡可能相等的兩半，計(jì)算二者的相關(guān)系數(shù)（rhh）），即半個(gè)量表的信度系數(shù)），最后用斯皮爾曼-布朗（Spearman-Brown）公式：rtt=2rhh/(1+rhh)，求出整個(gè)量表的信度系數(shù)rtt。

u 評分者信度

這種方法在測量工具的標(biāo)準(zhǔn)化程度較低的情況下進(jìn)行的。不同評分者的判分標(biāo)準(zhǔn)也會(huì)影響測量的信度，要檢驗(yàn)評分者信度，可計(jì)算一個(gè)評分者的一組評分與另一個(gè)評分者的一組評分的相關(guān)系數(shù)。

u a信度系數(shù)法

克倫巴赫a信度系數(shù)是目前最常用的信度系數(shù)。其公式為：a=(k/k-1)*(1-(∑Si2)/ST2)
其中，K為量表中題項(xiàng)的總數(shù)，Si2 為第i題得分的題內(nèi)方差，ST2為全部題項(xiàng)總得分的方差。從公式中可以看出，a系數(shù)評價(jià)的是量表中各題項(xiàng)得分間的一致性，屬于內(nèi)在一致性系數(shù)。這種方法適用于態(tài)度、意見式問卷（量表）的信度分析。

在李克特量表法中常用的信度檢驗(yàn)方法為“Cronbach’s a”系數(shù)及“折半信度”

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： wallance > 《統(tǒng)計(jì)》

舉報(bào)/認(rèn)領(lǐng)