陶哲軒：全是判斷題的卷子怎么評(píng)分？

liyu_sun 2016-09-19

展開(kāi)全文

原文作者：陶哲軒，加州大學(xué)洛杉磯分校數(shù)學(xué)教授，2006年菲爾茲獎(jiǎng)得主。

譯文作者：念琦，哆嗒數(shù)學(xué)網(wǎng)翻譯組成員，就讀于東北師大附中。

微信、手機(jī)QQ搜索關(guān)注 DuoDaaMath 每獲得更多數(shù)學(xué)趣文

注：以下是對(duì)我做了一些評(píng)分工作之后產(chǎn)生的新想法和有關(guān)計(jì)算的記錄。這個(gè)類(lèi)型的問(wèn)題可能已經(jīng)在某些文獻(xiàn)中被研究過(guò)了；我很樂(lè)意了解任何相關(guān)的資料。

假設(shè)一次考試中有N道判斷對(duì)錯(cuò)題，每道題的答案是隨機(jī)的，即答案是“對(duì)”和“錯(cuò)”的概率相等，并且不同的問(wèn)題之間沒(méi)有關(guān)聯(lián)。假設(shè)參加考試的學(xué)生必須用“對(duì)”或“錯(cuò)”回答每一道題（不允許跳過(guò)任何一道題）。

那么我們很容易知道如何評(píng)分：只要數(shù)一數(shù)每個(gè)同學(xué)正確回答了多少道題（也就是每道題回答正確得一分，回答錯(cuò)誤不得分），并將這個(gè)數(shù)字k作為考試成績(jī)即可。

更普遍的情況是，我們將每道回答正確的題的得分記為A，每道回答錯(cuò)誤的題的得分記為B（通常是一個(gè)負(fù)數(shù)），那么總分將是 Ak+B(N-k)。只要A＞B，這種評(píng)分方案就相當(dāng)于對(duì)前一種直接把k作為總分的模式進(jìn)行了改變比例的變換，并且同樣可以達(dá)到評(píng)價(jià)學(xué)生和鼓勵(lì)學(xué)生盡可能多地正確回答問(wèn)題的目的。

然而事實(shí)上，學(xué)生很可能不能絕對(duì)確定每個(gè)問(wèn)題的答案。

我們可以采取一個(gè)概率模型，即對(duì)于一個(gè)給定的學(xué)生S和一個(gè)給定的問(wèn)題n，學(xué)生S認(rèn)為問(wèn)題n的答案為“對(duì)”的概率是p(S,n)，而答案為“錯(cuò)”的概率是1-p(S,n)，其中0≤p(S,n)≤1，p(S,n)可以被看作一個(gè)衡量學(xué)生S對(duì)這個(gè)問(wèn)題的答案的自信程度的量（若p(S,n)趨近于1，則S對(duì)于答案是“對(duì)”有信心，反之若p(S,n)趨近于0，則S對(duì)于答案是“錯(cuò)”有信心）；為了簡(jiǎn)化問(wèn)題我們假定在這個(gè)概率模型中，每個(gè)問(wèn)題的答案都是相互獨(dú)立的隨機(jī)量。

考慮這個(gè)模型，并且假設(shè)學(xué)生S希望最大化自己的得分，我們很容易發(fā)現(xiàn)S回答問(wèn)題的最優(yōu)策略是當(dāng)p(S,n)＞1/2時(shí)回答“對(duì)”，當(dāng)p(S,n)＜1/2時(shí)回答“錯(cuò)”。（如果p(S,n)=1/2，S可以任意選擇答案。）

[注意：這里的“自信程度”不是統(tǒng)計(jì)學(xué)中的術(shù)語(yǔ)“置信度”，而是一個(gè)描述主觀概率的非正式用語(yǔ)。]

就現(xiàn)狀來(lái)說(shuō)這樣還不錯(cuò)，但是對(duì)于評(píng)估學(xué)生究竟掌握知識(shí)到何種程度的目的，它只提供了一些有限的信息，尤其是我們不能直接看到學(xué)生對(duì)每道題的自信程度p(S,n)。

舉例來(lái)說(shuō)，假設(shè)S在10道題中回答正確了7道，那是因?yàn)樗蛩_實(shí)知道這七道題的答案，還是因?yàn)樗蛩龑?duì)這十道題作出了合理推測(cè)，使得最終的正確率略高于隨機(jī)猜測(cè)的正確率而達(dá)到70％呢？看起來(lái)如果學(xué)生只被允許回答“對(duì)”和“錯(cuò)”，我們沒(méi)有辦法辨別這兩種情況。

但如果學(xué)生可以給出概率性的答案呢？也就是說(shuō)，對(duì)于給定的問(wèn)題n，學(xué)生不是只能回答“對(duì)”或“錯(cuò)”，而是可以給出一個(gè)如“答案是‘對(duì)’的可能性為60％”（因此答案是“錯(cuò)”的可能性為40％）的回答。這樣的回答使我們更加了解學(xué)生掌握知識(shí)的程度；更重要的是，理論上我們將可以確切地知道學(xué)生對(duì)每道題的自信程度p(S,n)。

但是現(xiàn)在，如何評(píng)分變得難以確定了。假設(shè)100％確信正確答案的回答得一分，60％確信正確答案的回答應(yīng)該得多少分？60％確信錯(cuò)誤答案（等同于40％確信正確答案）又應(yīng)該得多少分？

數(shù)學(xué)上，我們可以選擇評(píng)分函數(shù)f:[0,1]→R，當(dāng)學(xué)生對(duì)正確答案給出的可能性為p時(shí)，得分為f(p)。例如，如果學(xué)生認(rèn)為“對(duì)”的可能性為60％（因此“錯(cuò)”的可能性為40％），在這個(gè)評(píng)分方案下，如果正確答案是“對(duì)”，學(xué)生的得分為f(0.6)，如果正確答案是“錯(cuò)”，得分為f(0.4)。我們的問(wèn)題是：在這種情況下最合適的函數(shù)f是什么？

直觀地，我們認(rèn)為f應(yīng)該單調(diào)遞增——對(duì)于正確答案有較高自信的學(xué)生應(yīng)該得到比對(duì)正確答案自信較低學(xué)生更高的分?jǐn)?shù)。另一方面，后一種學(xué)生也應(yīng)該得到一部分分?jǐn)?shù)。一種想法是采用線性的函數(shù)f(p)=p，即對(duì)正確答案給出60％自信的學(xué)生將得到0.6分。但這是最好的選擇嗎？

為了使這個(gè)問(wèn)題在數(shù)學(xué)上更明確，我們需要一個(gè)客觀的標(biāo)準(zhǔn)來(lái)評(píng)價(jià)評(píng)分方案。這里可以采用的一種標(biāo)準(zhǔn)是是否避免了不正當(dāng)獎(jiǎng)勵(lì)。

如果一個(gè)評(píng)分方案設(shè)計(jì)得不好，學(xué)生最終可能會(huì)夸大或故意少說(shuō)自己對(duì)答案的自信程度，以此提高自己的（期望）成績(jī)：對(duì)于一個(gè)學(xué)生，一道題的最優(yōu)回答q(S,n)可能與其主觀的自信程度p(S,n)不同。因此我們可以設(shè)計(jì)一個(gè)總能使得q(S,n)=p(S,n)的評(píng)分方案，從而激勵(lì)學(xué)生真實(shí)地寫(xiě)下他或她對(duì)此題的自信程度。

這是對(duì)評(píng)分函數(shù)f的一個(gè)明確約束。如果學(xué)生S認(rèn)為問(wèn)題n的答案為“對(duì)”的可能性為p(S,n)，答案為“錯(cuò)”的可能性為1-p(S,n)，而作答時(shí)回答答案是“對(duì)”的可能性為q(S,n)（因此“錯(cuò)”的可能性為1-q(S,n)），學(xué)生對(duì)這道題得分的期望為

為了使這個(gè)期望最大化（假設(shè)函數(shù)f可導(dǎo)：在一個(gè)部分給分的評(píng)分方案中這是一個(gè)合理的假設(shè)），學(xué)生會(huì)執(zhí)行對(duì)獨(dú)立變量q(S,n)求導(dǎo)并使結(jié)果為零的策略，得到

為了避免不正當(dāng)獎(jiǎng)勵(lì)，期望的最大值應(yīng)在q(S,n)=p(S,n)時(shí)取到，因此我們有

對(duì)于所有0≤p(S,n)≤1成立。這要求函數(shù)p→pf'(p)為一常量。（嚴(yán)格地說(shuō)，應(yīng)是要求函數(shù)p→f'(p)關(guān)于p=1/2對(duì)稱(chēng)；但是如果將問(wèn)題推廣到不止兩個(gè)選項(xiàng)的多選題的情況，對(duì)于只與正確選項(xiàng)的自信程度有關(guān)的評(píng)分方案，同樣的分析將得出pf'(p)必為一與p無(wú)關(guān)的常量的結(jié)論；這個(gè)計(jì)算留給感興趣的讀者完成。）

也就是說(shuō)，f(p)應(yīng)為Alogp+B的形式，其中A,B為常數(shù)；根據(jù)單調(diào)性，A為正數(shù)。如果我們規(guī)定f(1/2)=0（即“對(duì)”和“錯(cuò)”的自信程度各占50％時(shí)不得分）以及f(1)=1，我們就得到了評(píng)分方案

因此，如果一個(gè)學(xué)生認(rèn)為答案是“對(duì)”的可能性為p，答案是“錯(cuò)”的可能性為1-p，如果正確答案是“對(duì)”，他或她將得到

的分?jǐn)?shù)，如果正確答案是“錯(cuò)”，他或她將得到

的分?jǐn)?shù)。下表中的值可用于說(shuō)明這種評(píng)分方案：

我們注意到對(duì)于錯(cuò)誤答案自信程度很高時(shí)懲罰會(huì)很?chē)?yán)重；尤其是，學(xué)生會(huì)避免回答對(duì)某個(gè)答案有100％的自信，除非他或她真的絕對(duì)確信自己的答案。

在這個(gè)評(píng)分方案下，若學(xué)生S對(duì)每個(gè)問(wèn)題n的回答是答案為“對(duì)”的可能性為p(S,n)，答案為“錯(cuò)”的可能性為1-p(S,n)，則總分為

這個(gè)分?jǐn)?shù)也可以被寫(xiě)作

其中，

是給定正確答案的情況下學(xué)生S的主觀概率模型（即學(xué)生S的答案）的似然函數(shù)。因此這里的評(píng)分系統(tǒng)還有一種對(duì)數(shù)似然函數(shù)的解釋。它激勵(lì)學(xué)生使自己的主觀概率的正確可能性最大化，這與統(tǒng)計(jì)學(xué)中的標(biāo)準(zhǔn)做法（最大似然法）一致。

根據(jù)貝葉斯概率的觀點(diǎn)，學(xué)生的分?jǐn)?shù)可以被看作對(duì)學(xué)生的主觀概率模型為正確（接近正確答案）的后驗(yàn)概率比先驗(yàn)概率高出多少的（對(duì)數(shù)尺度下的）量度。

我們可以用上述的評(píng)分方案評(píng)估對(duì)二元事件的預(yù)測(cè)，例如對(duì)于即將到來(lái)的只有兩名候選人的選舉，就可以在事后看看各預(yù)測(cè)者的預(yù)言起了多大作用。

這樣做會(huì)遇到的一個(gè)困難是很多預(yù)測(cè)都不會(huì)給出一個(gè)明確的概率，而如果對(duì)任何并非完全確定的預(yù)測(cè)給出了默認(rèn)100%的主觀概率，只要其中任意一個(gè)預(yù)測(cè)錯(cuò)誤，就必然產(chǎn)生-∞的得分。

但是如果預(yù)測(cè)者拒絕給出明確的概率，或許我們可以設(shè)計(jì)一個(gè)默認(rèn)的主觀概率p，并且（選擇一些合適的該預(yù)測(cè)者做出的預(yù)測(cè)作為“訓(xùn)練樣本”）找到使該預(yù)測(cè)者得分最高的p值。這個(gè)值作為默認(rèn)概率可以被用于該預(yù)測(cè)者此后做出的任何預(yù)測(cè)。

以上的評(píng)分方案很容易推廣到多選題的情況。但是我遇到的一個(gè)困難是如何處理不確定性，也就是學(xué)生甚至無(wú)法給出一道題的答案為“對(duì)”或“錯(cuò)”的可能性的情況。

這時(shí)，允許學(xué)生空題（也就是回答“我不知道”）是很自然的；更加高級(jí)的選項(xiàng)是允許學(xué)生以一個(gè)自信程度的區(qū)間作答（例如“我認(rèn)為答案為‘對(duì)’的可能性在50%到70%之間”）。

但是對(duì)此我還沒(méi)有一個(gè)很好的評(píng)分方案；一旦學(xué)生的主觀概率模型中出現(xiàn)不確定性，由于“不確定的不確定概率”，最大化學(xué)生分?jǐn)?shù)的期望的問(wèn)題就會(huì)是不適定的，因此之前使用的判斷是否避免了不正當(dāng)獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)也不再適用了。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： liyu_sun > 《待分類(lèi)》

舉報(bào)/認(rèn)領(lǐng)