第二屆“登峰杯”全國中學(xué)生數(shù)據(jù)挖掘競賽 高分解讀 1 競賽簡介 “登峰杯”全國中學(xué)生數(shù)據(jù)挖掘競賽由中國科學(xué)技術(shù)大學(xué)承辦,是面向全國高中生開展的數(shù)據(jù)挖掘競賽活動,旨在提高中學(xué)生運(yùn)用數(shù)據(jù)挖掘知識解決實(shí)際問題的能力,培訓(xùn)中學(xué)生的創(chuàng)新合作精神、編程能力和論文寫作能力。 數(shù)據(jù)挖掘競賽根據(jù)現(xiàn)實(shí)中的熱點(diǎn)事件提出開放性的問題,考察學(xué)生利用所學(xué)知識思考和解決實(shí)際問題的能力。競賽題目涉及到對實(shí)際生活中數(shù)據(jù)的挖掘與分析,及對問題的探索性思考,需要一定的數(shù)學(xué)能力,編程能力和論文寫作能力。 2 競賽賽題 奧運(yùn)會獎牌榜排名預(yù)測 2016年里約熱內(nèi)盧奧運(yùn)會剛剛落下帷幕,來自世界各地的207支國家和地區(qū)代表隊(duì)參與了本次盛會,中國代表隊(duì)取得了金牌榜第三,獎牌榜第二的好成績。奧運(yùn)會期間,獎牌榜排名成為了最熱門的話題。對于這個問題,不同的人可能會有不同的預(yù)測結(jié)果。如何讓預(yù)測結(jié)果更加準(zhǔn)確,這就是數(shù)據(jù)挖掘所關(guān)注的。請你利用自己所學(xué)的知識,通過實(shí)踐研究,就奧運(yùn)會獎牌榜排名預(yù)測問題,從以下角度做出探討。 問題 1:縱向討論,討論如何利用歷屆奧運(yùn)會的歷史成績與本次奧運(yùn)會成績之間可能存在的關(guān)聯(lián)性做出預(yù)測。 問題 2:橫向討論,除了歷史成績可以幫助預(yù)測,國家綜合實(shí)力也是影響奧運(yùn)會成績的重要因素,討論國家綜合實(shí)力會怎樣影響預(yù)測結(jié)果。 問題 3:在問題 1 和 2 解答的基礎(chǔ)上,思考除了歷史成績與國家綜合實(shí)力,其它可能的影響因素。 問題 4:結(jié)合以上討論內(nèi)容,對下一屆奧運(yùn)會的獎牌榜前十名給出你自己的預(yù)測結(jié)果,并闡述理由。 3 競賽任務(wù) 數(shù)據(jù)挖掘競賽考察學(xué)生從現(xiàn)實(shí)生活中收集數(shù)據(jù)的能力、對實(shí)際問題的科學(xué)分析能力及對所學(xué)知識的熟練應(yīng)用能力。競賽共分為三個部分,分別是數(shù)據(jù)收集部分、模型設(shè)計部分和拓展思考部分。 1、數(shù)據(jù)收集部分旨在培養(yǎng)學(xué)生的信息檢索與過濾能力。學(xué)生可以通過查閱文獻(xiàn)資料、網(wǎng)絡(luò)搜索等途徑尋找解決問題所需要的各種原始數(shù)據(jù),進(jìn)而通過對原始數(shù)據(jù)內(nèi)容的甄別、過濾,獲取有效信息并最終運(yùn)用到自己設(shè)計的模型中。對于動手能力較強(qiáng)的學(xué)生,還可以動手編寫網(wǎng)絡(luò)爬蟲以自動收集大量互聯(lián)網(wǎng)信息。 2、模型設(shè)計部分旨在培養(yǎng)學(xué)生的推導(dǎo)分析與建模能力。學(xué)生需要針對題目給出的實(shí)際問題進(jìn)行建模,并利用已收集的數(shù)據(jù)進(jìn)行求解。學(xué)生可以利用已有的數(shù)學(xué)算法、數(shù)據(jù)挖掘技術(shù)或者設(shè)計新的方法來解決問題,其中可能需要一定程度的數(shù)學(xué)推導(dǎo)和計算機(jī)編程。對于有余力的同學(xué),還可以對得到的結(jié)果做出分析,比如如果結(jié)果不好,可能是什么原因?qū)е碌?;如果結(jié)果很好,能否說明模型的有效性? 3、拓展思考部分旨在拓寬學(xué)生的思維范疇,培養(yǎng)學(xué)生的創(chuàng)新能力。競賽題目中會包含一定程度的拓展問題,學(xué)生不需要對此類問題做出詳細(xì)求解,但需要就此類問題提出自己的見解。 4 數(shù)據(jù)挖掘競賽將根據(jù)現(xiàn)實(shí)中的熱點(diǎn)事件提出問題,學(xué)生在得到問題后,需要主動收集數(shù)據(jù)(問題所需要的主要數(shù)據(jù)將是很易于收集的),分析問題并進(jìn)行建模,并利用已有數(shù)據(jù)進(jìn)行求解,最后進(jìn)行可能的模型評估和拓展思考。 · 采用的模型或方法是否具有理論依據(jù) · 對問題影響因素的考慮是否周全 · 模型是否有過擬合的可能 · 模型求解算法的時間和空間復(fù)雜性
|
|