原文作者:陶哲軒,加州大學(xué)洛杉磯分校數(shù)學(xué)教授,2006年菲爾茲獎(jiǎng)得主。 譯文作者:念琦,哆嗒數(shù)學(xué)網(wǎng)翻譯組成員,就讀于東北師大附中。
微信、手機(jī)QQ搜索關(guān)注 DuoDaaMath 每獲得更多數(shù)學(xué)趣文
注:以下是對(duì)我做了一些評(píng)分工作之后產(chǎn)生的新想法和有關(guān)計(jì)算的記錄。這個(gè)類(lèi)型的問(wèn)題可能已經(jīng)在某些文獻(xiàn)中被研究過(guò)了;我很樂(lè)意了解任何相關(guān)的資料。
假設(shè)一次考試中有N道判斷對(duì)錯(cuò)題,每道題的答案是隨機(jī)的,即答案是“對(duì)”和“錯(cuò)”的概率相等,并且不同的問(wèn)題之間沒(méi)有關(guān)聯(lián)。假設(shè)參加考試的學(xué)生必須用“對(duì)”或“錯(cuò)”回答每一道題(不允許跳過(guò)任何一道題)。
那么我們很容易知道如何評(píng)分:只要數(shù)一數(shù)每個(gè)同學(xué)正確回答了多少道題(也就是每道題回答正確得一分,回答錯(cuò)誤不得分),并將這個(gè)數(shù)字k作為考試成績(jī)即可。
更普遍的情況是,我們將每道回答正確的題的得分記為A,每道回答錯(cuò)誤的題的得分記為B(通常是一個(gè)負(fù)數(shù)),那么總分將是 Ak+B(N-k)。只要A>B,這種評(píng)分方案就相當(dāng)于對(duì)前一種直接把k作為總分的模式進(jìn)行了改變比例的變換,并且同樣可以達(dá)到評(píng)價(jià)學(xué)生和鼓勵(lì)學(xué)生盡可能多地正確回答問(wèn)題的目的。
然而事實(shí)上,學(xué)生很可能不能絕對(duì)確定每個(gè)問(wèn)題的答案。
我們可以采取一個(gè)概率模型,即對(duì)于一個(gè)給定的學(xué)生S和一個(gè)給定的問(wèn)題n,學(xué)生S認(rèn)為問(wèn)題n的答案為“對(duì)”的概率是p(S,n),而答案為“錯(cuò)”的概率是1-p(S,n),其中0≤p(S,n)≤1,p(S,n)可以被看作一個(gè)衡量學(xué)生S對(duì)這個(gè)問(wèn)題的答案的自信程度的量(若p(S,n)趨近于1,則S對(duì)于答案是“對(duì)”有信心,反之若p(S,n)趨近于0,則S對(duì)于答案是“錯(cuò)”有信心);為了簡(jiǎn)化問(wèn)題我們假定在這個(gè)概率模型中,每個(gè)問(wèn)題的答案都是相互獨(dú)立的隨機(jī)量。
考慮這個(gè)模型,并且假設(shè)學(xué)生S希望最大化自己的得分,我們很容易發(fā)現(xiàn)S回答問(wèn)題的最優(yōu)策略是當(dāng)p(S,n)>1/2時(shí)回答“對(duì)”,當(dāng)p(S,n)<1/2時(shí)回答“錯(cuò)”。(如果p(S,n)=1/2,S可以任意選擇答案。)
[注意:這里的“自信程度”不是統(tǒng)計(jì)學(xué)中的術(shù)語(yǔ)“置信度”,而是一個(gè)描述主觀概率的非正式用語(yǔ)。]
就現(xiàn)狀來(lái)說(shuō)這樣還不錯(cuò),但是對(duì)于評(píng)估學(xué)生究竟掌握知識(shí)到何種程度的目的,它只提供了一些有限的信息,尤其是我們不能直接看到學(xué)生對(duì)每道題的自信程度p(S,n)。
舉例來(lái)說(shuō),假設(shè)S在10道題中回答正確了7道,那是因?yàn)樗蛩_實(shí)知道這七道題的答案,還是因?yàn)樗蛩龑?duì)這十道題作出了合理推測(cè),使得最終的正確率略高于隨機(jī)猜測(cè)的正確率而達(dá)到70%呢?看起來(lái)如果學(xué)生只被允許回答“對(duì)”和“錯(cuò)”,我們沒(méi)有辦法辨別這兩種情況。
但如果學(xué)生可以給出概率性的答案呢?也就是說(shuō),對(duì)于給定的問(wèn)題n,學(xué)生不是只能回答“對(duì)”或“錯(cuò)”,而是可以給出一個(gè)如“答案是‘對(duì)’的可能性為60%”(因此答案是“錯(cuò)”的可能性為40%)的回答。這樣的回答使我們更加了解學(xué)生掌握知識(shí)的程度;更重要的是,理論上我們將可以確切地知道學(xué)生對(duì)每道題的自信程度p(S,n)。
但是現(xiàn)在,如何評(píng)分變得難以確定了。假設(shè)100%確信正確答案的回答得一分,60%確信正確答案的回答應(yīng)該得多少分?60%確信錯(cuò)誤答案(等同于40%確信正確答案)又應(yīng)該得多少分?
數(shù)學(xué)上,我們可以選擇評(píng)分函數(shù)f:[0,1]→R,當(dāng)學(xué)生對(duì)正確答案給出的可能性為p時(shí),得分為f(p)。例如,如果學(xué)生認(rèn)為“對(duì)”的可能性為60%(因此“錯(cuò)”的可能性為40%),在這個(gè)評(píng)分方案下,如果正確答案是“對(duì)”,學(xué)生的得分為f(0.6),如果正確答案是“錯(cuò)”,得分為f(0.4)。我們的問(wèn)題是:在這種情況下最合適的函數(shù)f是什么?
直觀地,我們認(rèn)為f應(yīng)該單調(diào)遞增——對(duì)于正確答案有較高自信的學(xué)生應(yīng)該得到比對(duì)正確答案自信較低學(xué)生更高的分?jǐn)?shù)。另一方面,后一種學(xué)生也應(yīng)該得到一部分分?jǐn)?shù)。一種想法是采用線性的函數(shù)f(p)=p,即對(duì)正確答案給出60%自信的學(xué)生將得到0.6分。但這是最好的選擇嗎?
為了使這個(gè)問(wèn)題在數(shù)學(xué)上更明確,我們需要一個(gè)客觀的標(biāo)準(zhǔn)來(lái)評(píng)價(jià)評(píng)分方案。這里可以采用的一種標(biāo)準(zhǔn)是是否避免了不正當(dāng)獎(jiǎng)勵(lì)。
如果一個(gè)評(píng)分方案設(shè)計(jì)得不好,學(xué)生最終可能會(huì)夸大或故意少說(shuō)自己對(duì)答案的自信程度,以此提高自己的(期望)成績(jī):對(duì)于一個(gè)學(xué)生,一道題的最優(yōu)回答q(S,n)可能與其主觀的自信程度p(S,n)不同。因此我們可以設(shè)計(jì)一個(gè)總能使得q(S,n)=p(S,n)的評(píng)分方案,從而激勵(lì)學(xué)生真實(shí)地寫(xiě)下他或她對(duì)此題的自信程度。
這是對(duì)評(píng)分函數(shù)f的一個(gè)明確約束。如果學(xué)生S認(rèn)為問(wèn)題n的答案為“對(duì)”的可能性為p(S,n),答案為“錯(cuò)”的可能性為1-p(S,n),而作答時(shí)回答答案是“對(duì)”的可能性為q(S,n)(因此“錯(cuò)”的可能性為1-q(S,n)),學(xué)生對(duì)這道題得分的期望為
為了使這個(gè)期望最大化(假設(shè)函數(shù)f可導(dǎo):在一個(gè)部分給分的評(píng)分方案中這是一個(gè)合理的假設(shè)),學(xué)生會(huì)執(zhí)行對(duì)獨(dú)立變量q(S,n)求導(dǎo)并使結(jié)果為零的策略,得到
為了避免不正當(dāng)獎(jiǎng)勵(lì),期望的最大值應(yīng)在q(S,n)=p(S,n)時(shí)取到,因此我們有
對(duì)于所有0≤p(S,n)≤1成立。這要求函數(shù)p→pf'(p)為一常量。(嚴(yán)格地說(shuō),應(yīng)是要求函數(shù)p→f'(p)關(guān)于p=1/2對(duì)稱(chēng);但是如果將問(wèn)題推廣到不止兩個(gè)選項(xiàng)的多選題的情況,對(duì)于只與正確選項(xiàng)的自信程度有關(guān)的評(píng)分方案,同樣的分析將得出pf'(p)必為一與p無(wú)關(guān)的常量的結(jié)論;這個(gè)計(jì)算留給感興趣的讀者完成。)
也就是說(shuō),f(p)應(yīng)為Alogp+B的形式,其中A,B為常數(shù);根據(jù)單調(diào)性,A為正數(shù)。如果我們規(guī)定f(1/2)=0(即“對(duì)”和“錯(cuò)”的自信程度各占50%時(shí)不得分)以及f(1)=1,我們就得到了評(píng)分方案
因此,如果一個(gè)學(xué)生認(rèn)為答案是“對(duì)”的可能性為p,答案是“錯(cuò)”的可能性為1-p,如果正確答案是“對(duì)”,他或她將得到
的分?jǐn)?shù),如果正確答案是“錯(cuò)”,他或她將得到
的分?jǐn)?shù)。下表中的值可用于說(shuō)明這種評(píng)分方案:
我們注意到對(duì)于錯(cuò)誤答案自信程度很高時(shí)懲罰會(huì)很?chē)?yán)重;尤其是,學(xué)生會(huì)避免回答對(duì)某個(gè)答案有100%的自信,除非他或她真的絕對(duì)確信自己的答案。
在這個(gè)評(píng)分方案下,若學(xué)生S對(duì)每個(gè)問(wèn)題n的回答是答案為“對(duì)”的可能性為p(S,n),答案為“錯(cuò)”的可能性為1-p(S,n),則總分為
這個(gè)分?jǐn)?shù)也可以被寫(xiě)作
其中,
是給定正確答案的情況下學(xué)生S的主觀概率模型(即學(xué)生S的答案)的似然函數(shù)。因此這里的評(píng)分系統(tǒng)還有一種對(duì)數(shù)似然函數(shù)的解釋。它激勵(lì)學(xué)生使自己的主觀概率的正確可能性最大化,這與統(tǒng)計(jì)學(xué)中的標(biāo)準(zhǔn)做法(最大似然法)一致。
根據(jù)貝葉斯概率的觀點(diǎn),學(xué)生的分?jǐn)?shù)可以被看作對(duì)學(xué)生的主觀概率模型為正確(接近正確答案)的后驗(yàn)概率比先驗(yàn)概率高出多少的(對(duì)數(shù)尺度下的)量度。
我們可以用上述的評(píng)分方案評(píng)估對(duì)二元事件的預(yù)測(cè),例如對(duì)于即將到來(lái)的只有兩名候選人的選舉,就可以在事后看看各預(yù)測(cè)者的預(yù)言起了多大作用。
這樣做會(huì)遇到的一個(gè)困難是很多預(yù)測(cè)都不會(huì)給出一個(gè)明確的概率,而如果對(duì)任何并非完全確定的預(yù)測(cè)給出了默認(rèn)100%的主觀概率,只要其中任意一個(gè)預(yù)測(cè)錯(cuò)誤,就必然產(chǎn)生-∞的得分。
但是如果預(yù)測(cè)者拒絕給出明確的概率,或許我們可以設(shè)計(jì)一個(gè)默認(rèn)的主觀概率p,并且(選擇一些合適的該預(yù)測(cè)者做出的預(yù)測(cè)作為“訓(xùn)練樣本”)找到使該預(yù)測(cè)者得分最高的p值。這個(gè)值作為默認(rèn)概率可以被用于該預(yù)測(cè)者此后做出的任何預(yù)測(cè)。
以上的評(píng)分方案很容易推廣到多選題的情況。但是我遇到的一個(gè)困難是如何處理不確定性,也就是學(xué)生甚至無(wú)法給出一道題的答案為“對(duì)”或“錯(cuò)”的可能性的情況。
這時(shí),允許學(xué)生空題(也就是回答“我不知道”)是很自然的;更加高級(jí)的選項(xiàng)是允許學(xué)生以一個(gè)自信程度的區(qū)間作答(例如“我認(rèn)為答案為‘對(duì)’的可能性在50%到70%之間”)。
但是對(duì)此我還沒(méi)有一個(gè)很好的評(píng)分方案;一旦學(xué)生的主觀概率模型中出現(xiàn)不確定性,由于“不確定的不確定概率”,最大化學(xué)生分?jǐn)?shù)的期望的問(wèn)題就會(huì)是不適定的,因此之前使用的判斷是否避免了不正當(dāng)獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)也不再適用了。
|
|
來(lái)自: liyu_sun > 《待分類(lèi)》