【新智元導(dǎo)讀】一年一度的阿里全球數(shù)學(xué)競賽又開始了。本屆最大的亮點,首次向硅基AI開放,最高可摘得1萬美金大獎。不用等了,帶著你的AI來挑戰(zhàn)吧。首個專為AI敞開大門的數(shù)學(xué)競賽來了!今天,2024阿里巴巴全球數(shù)學(xué)競賽開啟報名,首次向AI開放。要求很簡單,就是用AI完成預(yù)選賽的題目,第一名獎金高達(dá)10000美元。消息一出,沒想到,向來不愛數(shù)學(xué)的網(wǎng)友反響出奇的熱烈,瘋狂@各路大模型參賽。相關(guān)話題還沖上知乎當(dāng)天的熱榜。有網(wǎng)友表示,「作為曾經(jīng)的數(shù)學(xué)愛好者,如今的AI愛好者,表示雙廚狂喜。」當(dāng)然,也有認(rèn)真學(xué)習(xí)的網(wǎng)友,對AI參賽很興趣,「現(xiàn)在 AI 解決一些常規(guī)的計算題都有可能出錯,不知道如何解答競賽的證明題?」也有參加過往屆競賽的網(wǎng)友直言,「AI估計沒戲,阿賽都是出的沒有直接解答和解題思路參考的新題,不是靠儲存和搜索就可以的?!?/span>不過也有網(wǎng)友發(fā)現(xiàn)比賽真正的槽點,23333都說「萬物皆可AI」,用AI來做數(shù)學(xué)題,是否很簡單呢?激動的小編決定一試,就用當(dāng)前「地表最強」的大模型GPT-4和Claude 3 Opus練練手。從過往三年阿里數(shù)賽的真題,小編選出了一道看著「人人易懂」的題目,讓兩個大模型去完成。這是一個非常有趣的「抽鬼牌」游戲。A有n張牌(兩兩不同),B手中有n+1張牌(n張牌與A相同),只有一張是「鬼牌」。游戲規(guī)則也很簡單,A和B互相從對方手中抽牌,A先開始,若抽到牌與手中某張牌一樣,將其丟棄。最后手里有「鬼牌」的人,就是loser。假設(shè)每次從對方手中抽到任意一張牌概率相同,那么,n等于多少的時候,A的勝率最高?GPT-4定義一個遞歸函數(shù)來計算A的勝率。A在第一次抽牌時,抽到「鬼牌」的概率:1 / (n + 1)。A沒有抽到「鬼牌」的概率:(n / (n + 1)) * (1 - A的勝率(n - 1))。然后,A獲勝的總概率等于上面兩個加起來:1 / (n + 1)+ (n / (n + 1)) * (1 - A的勝率(n - 1))。最終將n = {31, 32, 999, 1000},分別計算,最終ChatGPT得出了n=31時,A的勝率最大。def A_win_probability(n): # Base case: if only the ghost card remains, A loses, so the probability is 0. if n == 0: return 0
# Probability of A drawing the ghost card on the first draw. prob_A_draws_ghost = 1 / (n + 1)
# Probability of A not drawing the ghost card and then considering the outcomes # of the remaining game, which behaves like a game starting with one less card # (since A will draw a matching card and both will be discarded). prob_A_not_draw_ghost_and_wins = (n / (n + 1)) * (1 - A_win_probability(n - 1))
# Total probability of A winning. return prob_A_draws_ghost + prob_A_not_draw_ghost_and_wins
# Calculating A's win probability for the given n values n_values = [31, 32, 999, 1000] win_probabilities = {n: A_win_probability(n) for n in n_values}
win_probabilities
再來看看號稱干翻「GPT4」的Claude 3 Opus表現(xiàn)如何? 在具體的分析過程中,Claude 3 Opus將游戲最終結(jié)果只歸因于「A和B的抽牌順序」——根據(jù)題目已給條件,是讓A先抽的牌。然后,它又將A和B手中的牌加到一起,共有2n+1張牌,然后得出誰抽到最后一張牌,誰就輸。Claude 3 Opus給出了A獲勝的條件,就是B抽到最后一張牌,簡言之,一共進行「奇數(shù)次」抽牌,A就獲勝。最終,模型將獲勝率轉(zhuǎn)為了「鬼牌」的奇偶率,得出了當(dāng)n為偶數(shù)時,A獲勝率大于1/2。因此,根據(jù)選項,得出了n=32,勝率最大。GPT-4顯然挑戰(zhàn)失敗了,而Claude 3 Opus雖然答對了,但嚴(yán)格來說,算「懵對」。邏輯卻出現(xiàn)了前后不吻合的情況。這種情況如果算過程分,也只能拿零分。經(jīng)過實測,任何一個人都可以理解的題目,但對于AI來說,卻不一定。大模型需要將題目轉(zhuǎn)化為形式化的語言,也就是計算機可以理解的語言,然后根據(jù)已有的知識進行推理計算。GPT-4與Claude 3 Opus在回答復(fù)雜數(shù)學(xué)問題的狀況,跟下圖一模一樣:學(xué)好數(shù)學(xué),對AI同樣重要 在數(shù)學(xué)解題能力上,即便是地表最強AI,也暴露出不少缺點。直接上結(jié)論吧,AI今年應(yīng)該還趕不上人類選手的水平。但是未來差距無疑不斷縮短,甚至于超越。如果這一旦發(fā)生,會倒逼提升競賽難度、也會讓人類選手迸發(fā)更大潛能。寫到這里,開始有點理解,阿里為什么要舉辦AI數(shù)學(xué)比賽了。數(shù)學(xué)之于AI,AI之于數(shù)學(xué),是相互相依的關(guān)系。在追上人類前,AI也許可以成為學(xué)生和數(shù)學(xué)家的助手,發(fā)揮搜索、記憶以及計算速度上的優(yōu)勢,幫助人類去解題。而另一方面,沒有數(shù)學(xué)理論的支持,AI也很難行穩(wěn)至遠(yuǎn)。就連菲爾茲獎得主陶哲軒本人,第一時間將ChatGPT加入工作流,并預(yù)言:2026年,AI將與搜索和符號數(shù)學(xué)工具相結(jié)合,成為數(shù)學(xué)研究中值得信賴的合著者。 在最近接受Quanta Magazine的采訪中,他還著重強調(diào)了,「AI可以讓數(shù)學(xué)家大規(guī)模合作,讓更多業(yè)余愛好者參與進來,為數(shù)學(xué)做出有意義的貢獻(xiàn)」。數(shù)賽組委會成員、達(dá)摩院決策智能實驗室的負(fù)責(zé)人印臥濤表示,「引入AI給大賽帶來一個新視角,讓大家可以一同見證AI在邏輯思維和解題方面的能力」。花式整活兒背后,推動數(shù)學(xué)與AI的發(fā)展 今年已是第六屆的阿里全球數(shù)學(xué)競賽,每年都吸引了全球各行各業(yè)的選手參與,比如退休教授、律師、船員、編劇、快遞員等等。2023年阿里數(shù)賽中,一位95后快遞小哥就成為了那個「民間高手」。白天忙著送快遞,晚上還要留出時間專研數(shù)學(xué)。他僅用了兩周的時間,證明了歐拉常數(shù)有關(guān)的13個公式。仔細(xì)一想,今年阿里首設(shè)AI數(shù)學(xué)挑戰(zhàn)賽,對公眾而言也是一場很好的數(shù)學(xué)科普。原來「不僅我覺得數(shù)學(xué)難,AI也覺得難」,還是踏踏實實的學(xué)習(xí)吧(狗頭組委會方面表示,數(shù)學(xué)本身就是AI的基礎(chǔ),后續(xù)還會去解讀一些優(yōu)秀AI背后的數(shù)學(xué)原理,向公眾展示數(shù)學(xué)對于AI的重要性和應(yīng)用前景,希望能夠提升大眾,特別是青少年對基礎(chǔ)學(xué)科的興趣。此外,可預(yù)想的是,比賽定會吸引一大波碼農(nóng)前來參賽,說不定數(shù)學(xué)題還沒解出來,卻在過程中發(fā)掘出新的AI訓(xùn)練方法,新的算法,反過來推動了AI 的進步。聽說,魔搭社區(qū)已經(jīng)發(fā)起號召了,就等著大神來揭榜。相信「重賞之下,必有勇夫」,有著自己路數(shù)的AI必然讓人期待。還在等什么,快點擊報名鏈接或掃描二維碼,帶著你的「硅基寶可夢」來挑戰(zhàn)吧!https://damo.alibaba.com/alibaba-global-mathematics-competition?language=zh
|