阿里數(shù)賽首次向AI開放！知乎網(wǎng)友：給AI捏了把汗，該防止人類替考

天承辦公室 2024-03-15 發(fā)布于北京

展開全文

新智元報道

編輯：編輯部

【新智元導(dǎo)讀】一年一度的阿里全球數(shù)學(xué)競賽又開始了。本屆最大的亮點，首次向硅基AI開放，最高可摘得1萬美金大獎。不用等了，帶著你的AI來挑戰(zhàn)吧。

首個專為AI敞開大門的數(shù)學(xué)競賽來了！

今天，2024阿里巴巴全球數(shù)學(xué)競賽開啟報名，首次向AI開放。要求很簡單，就是用AI完成預(yù)選賽的題目，第一名獎金高達(dá)10000美元。

消息一出，沒想到，向來不愛數(shù)學(xué)的網(wǎng)友反響出奇的熱烈，瘋狂@各路大模型參賽。

相關(guān)話題還沖上知乎當(dāng)天的熱榜。有網(wǎng)友表示，「作為曾經(jīng)的數(shù)學(xué)愛好者，如今的AI愛好者，表示雙廚狂喜。」

當(dāng)然，也有認(rèn)真學(xué)習(xí)的網(wǎng)友，對AI參賽很興趣，「現(xiàn)在 AI 解決一些常規(guī)的計算題都有可能出錯，不知道如何解答競賽的證明題？」

也有參加過往屆競賽的網(wǎng)友直言，「AI估計沒戲，阿賽都是出的沒有直接解答和解題思路參考的新題，不是靠儲存和搜索就可以的?！?/span>

不過也有網(wǎng)友發(fā)現(xiàn)比賽真正的槽點，23333

都說「萬物皆可AI」，用AI來做數(shù)學(xué)題，是否很簡單呢？激動的小編決定一試，就用當(dāng)前「地表最強」的大模型GPT-4和Claude 3 Opus練練手。

與地表最強AI組隊考試是一種怎樣的感覺？

從過往三年阿里數(shù)賽的真題，小編選出了一道看著「人人易懂」的題目，讓兩個大模型去完成。

這是一個非常有趣的「抽鬼牌」游戲。A有n張牌（兩兩不同），B手中有n+1張牌（n張牌與A相同），只有一張是「鬼牌」。

游戲規(guī)則也很簡單，A和B互相從對方手中抽牌，A先開始，若抽到牌與手中某張牌一樣，將其丟棄。最后手里有「鬼牌」的人，就是loser。

假設(shè)每次從對方手中抽到任意一張牌概率相同，那么，n等于多少的時候，A的勝率最高？

GPT-4定義一個遞歸函數(shù)來計算A的勝率。

具體函數(shù)代碼過程如下：

A在第一次抽牌時，抽到「鬼牌」的概率：1 / (n + 1)。

A沒有抽到「鬼牌」的概率：(n / (n + 1)) * (1 - A的勝率(n - 1))。

然后，A獲勝的總概率等于上面兩個加起來：1 / (n + 1)+ (n / (n + 1)) * (1 - A的勝率(n - 1))。

最終將n = {31, 32, 999, 1000}，分別計算，最終ChatGPT得出了n=31時，A的勝率最大。

def A_win_probability(n): # Base case: if only the ghost card remains, A loses, so the probability is 0. if n == 0: return 0

# Probability of A drawing the ghost card on the first draw. prob_A_draws_ghost = 1 / (n + 1)

# Probability of A not drawing the ghost card and then considering the outcomes # of the remaining game, which behaves like a game starting with one less card # (since A will draw a matching card and both will be discarded). prob_A_not_draw_ghost_and_wins = (n / (n + 1)) * (1 - A_win_probability(n - 1))

# Total probability of A winning. return prob_A_draws_ghost + prob_A_not_draw_ghost_and_wins

# Calculating A's win probability for the given n valuesn_values = [31, 32, 999, 1000]win_probabilities = {n: A_win_probability(n) for n in n_values}

win_probabilities

再來看看號稱干翻「GPT4」的Claude 3 Opus表現(xiàn)如何？

在具體的分析過程中，Claude 3 Opus將游戲最終結(jié)果只歸因于「A和B的抽牌順序」——根據(jù)題目已給條件，是讓A先抽的牌。然后，它又將A和B手中的牌加到一起，共有2n+1張牌，然后得出誰抽到最后一張牌，誰就輸。Claude 3 Opus給出了A獲勝的條件，就是B抽到最后一張牌，簡言之，一共進行「奇數(shù)次」抽牌，A就獲勝。

最終，模型將獲勝率轉(zhuǎn)為了「鬼牌」的奇偶率，得出了當(dāng)n為偶數(shù)時，A獲勝率大于1/2。因此，根據(jù)選項，得出了n=32，勝率最大。

官方的正確答案是B，n=32。

GPT-4顯然挑戰(zhàn)失敗了，而Claude 3 Opus雖然答對了，但嚴(yán)格來說，算「懵對」。邏輯卻出現(xiàn)了前后不吻合的情況。這種情況如果算過程分，也只能拿零分。

經(jīng)過實測，任何一個人都可以理解的題目，但對于AI來說，卻不一定。

大模型需要將題目轉(zhuǎn)化為形式化的語言，也就是計算機可以理解的語言，然后根據(jù)已有的知識進行推理計算。

GPT-4與Claude 3 Opus在回答復(fù)雜數(shù)學(xué)問題的狀況，跟下圖一模一樣：

學(xué)好數(shù)學(xué)，對AI同樣重要

在數(shù)學(xué)解題能力上，即便是地表最強AI，也暴露出不少缺點。

直接上結(jié)論吧，AI今年應(yīng)該還趕不上人類選手的水平。

但是未來差距無疑不斷縮短，甚至于超越。如果這一旦發(fā)生，會倒逼提升競賽難度、也會讓人類選手迸發(fā)更大潛能。

寫到這里，開始有點理解，阿里為什么要舉辦AI數(shù)學(xué)比賽了。

數(shù)學(xué)之于AI，AI之于數(shù)學(xué)，是相互相依的關(guān)系。在追上人類前，AI也許可以成為學(xué)生和數(shù)學(xué)家的助手，發(fā)揮搜索、記憶以及計算速度上的優(yōu)勢，幫助人類去解題。而另一方面，沒有數(shù)學(xué)理論的支持，AI也很難行穩(wěn)至遠(yuǎn)。

就連菲爾茲獎得主陶哲軒本人，第一時間將ChatGPT加入工作流，并預(yù)言：