編者按 近年來人工智能技術(shù)飛速發(fā)展尤其是ChatGPT、DeepSeek等生成式人工智能技術(shù)的興起,為歷史研究和教學(xué)帶來新的機(jī)遇。借助人工智能技術(shù),歷史學(xué)家們可以便捷地獲取數(shù)據(jù)、釋讀史料,發(fā)現(xiàn)不同文本之間存在的關(guān)聯(lián)。此外,運(yùn)用人工智能進(jìn)行歷史模擬,也逐漸成為歷史教學(xué)中積極探索的方向。人工智能為史學(xué)研究帶來便利的同時(shí),也給歷史學(xué)家的工作帶來不少挑戰(zhàn),如學(xué)者們必須注意到生成式人工智能引用的已有數(shù)據(jù)可能會存在價(jià)值偏見,進(jìn)而影響輸出內(nèi)容的真實(shí)性等。人工智能與歷史學(xué)之間如何共融共生?人工智能時(shí)代歷史學(xué)家應(yīng)該如何提升技能,積極運(yùn)用新技術(shù),推進(jìn)歷史知識生產(chǎn)和公共歷史實(shí)踐呢?基于此,本版特刊發(fā)專題文章,以期對上述問題作出回答。 當(dāng)前AI(人工智能)正在逐漸改變世界,成為政府決策、醫(yī)療干預(yù)、金融交易、司法審議、環(huán)境保護(hù)、科學(xué)研究等領(lǐng)域的重要“參與者”。歷史學(xué)者將要面對的是一個(gè)前所未有的與AI共生的時(shí)代。不過,到目前為止,大多數(shù)學(xué)者并不認(rèn)為AI會從根本上改變歷史學(xué),或者歷史學(xué)會對AI發(fā)揮關(guān)鍵性的作用。 這種態(tài)度部分源自于人文學(xué)者將AI理解為機(jī)器能力的進(jìn)展,從而把接受AI視為純粹的技術(shù)問題。1956年,美國科學(xué)家約翰·麥卡錫提出了“Artificial Intelligence(人工智能,簡稱AI)”這一術(shù)語,指代能展示人類智能行為的計(jì)算機(jī)系統(tǒng)。數(shù)十年后,隨著計(jì)算能力提高、有了可用的大規(guī)模數(shù)據(jù)集,在2010年代中期,出現(xiàn)了基于深度學(xué)習(xí)技術(shù)的算法決策系統(tǒng)與預(yù)測性的機(jī)器學(xué)習(xí),“人工智能”的涵義不斷擴(kuò)展,代表了IT系統(tǒng)(包括機(jī)器或軟件系統(tǒng))通過學(xué)習(xí)和解釋龐大的人類記錄數(shù)據(jù),實(shí)現(xiàn)模擬人類認(rèn)知能力的一系列技術(shù)、方法和流程。機(jī)器學(xué)習(xí)的算法和模型走出了學(xué)術(shù)研究與科學(xué)實(shí)驗(yàn),開始應(yīng)用于商業(yè)、醫(yī)療、教育以及國家戰(zhàn)略等層面。戲劇性的轉(zhuǎn)變發(fā)生在2022年底,生成式AI的應(yīng)用ChatGPT問世,上線兩個(gè)月,活躍用戶達(dá)到1億人,在引起廣泛關(guān)注的同時(shí),也促進(jìn)中國開發(fā)的諸多大語言模型(LLM)投放市場。2024年底,DeepSeek上線并同步開源的V3模型,以其創(chuàng)新的模型構(gòu)架和高性價(jià)比點(diǎn)燃了民眾以中文使用AI的極大熱情。通過ChatGPT、DeepSeek、Kimi、豆包這些國內(nèi)外聊天機(jī)器人,AI對于普通人變得觸手可及。人們能運(yùn)用自己熟悉的語言指示機(jī)器執(zhí)行任務(wù),個(gè)人的決策、行動(dòng)隨時(shí)可以參考、調(diào)用算法和模型,機(jī)器的回應(yīng)不僅符合人類表達(dá)的邏輯,順暢自然,還能針對個(gè)人的輸入進(jìn)行調(diào)整,如同一個(gè)適應(yīng)性強(qiáng)、情緒穩(wěn)定的同伴,使人感到親近。在與人類的互動(dòng)關(guān)系上,這是人工智能一次革命性的飛躍,大語言模型不僅是一項(xiàng)在語義空間里應(yīng)用生成式人工智能的典型技術(shù),還下沉到日常生活,拉近了人類歷史與現(xiàn)實(shí)之間的互動(dòng)關(guān)系。 雖然到目前為止,人們還無法解釋人工智能算法在內(nèi)部運(yùn)行的機(jī)制細(xì)節(jié),但通過其訓(xùn)練過程,可以看到它正在為人類歷史與現(xiàn)實(shí)的關(guān)系提供一種從未有過的數(shù)字交互模式。以生成式AI為例,開發(fā)者為了讓AI理解人類語言的指令,實(shí)現(xiàn)人機(jī)連貫對話,主要讓機(jī)器學(xué)習(xí)大量的文本數(shù)據(jù)。近兩年來,現(xiàn)有的基礎(chǔ)大語言模型幾乎使用了絕大部分的可用高質(zhì)量文本數(shù)據(jù)源,其中公開的、數(shù)字化的歷史記錄、檔案、書籍論文雖然數(shù)量占比不大,對AI的訓(xùn)練影響卻很重要。通過理解這些訓(xùn)練文本背后的結(jié)構(gòu),AI實(shí)現(xiàn)了與人類語言的“對齊”,也表征了這些歷史文獻(xiàn)與歷史認(rèn)識當(dāng)中反映出來的偏好、價(jià)值觀與意識形態(tài)。主流的機(jī)器學(xué)習(xí)算法目前都近似于一種優(yōu)化多數(shù)的策略,擅長從歷史數(shù)據(jù)中識別模式與類型,如果用于訓(xùn)練的歷史文本和圖片里含有明顯的偏見、歧視與局限性,數(shù)量又多的話,就會被AI當(dāng)作重要的參數(shù),帶入判斷當(dāng)下、影響未來的決策和預(yù)測當(dāng)中,威脅到人類社會的安全、倫理、道德等基本需求。換言之,訓(xùn)練AI的過程,是在使AI歷史化,從數(shù)據(jù)中獲得定義過去的方法;運(yùn)用AI的過程,則極大加速了從認(rèn)識過去到付諸當(dāng)下行動(dòng)的轉(zhuǎn)化,使人類歷史與現(xiàn)實(shí)活動(dòng)之間的關(guān)系在數(shù)字層面上呈現(xiàn)為一種持續(xù)相遇、頃刻相通、實(shí)時(shí)作用的互動(dòng)形態(tài)。從一開始,AI系統(tǒng)的研究與應(yīng)用,可以說就是賦予AI歷史性與社會性的過程。 為了確保這項(xiàng)新信息技術(shù)的發(fā)明能服務(wù)于人類共同的福祉,除了技術(shù)開發(fā)者外,還需要人文社會科學(xué)工作者的深入理解與廣泛參與。對歷史學(xué)者來說,這會是一個(gè)與AI共同建構(gòu)學(xué)科、學(xué)理與學(xué)識的過程。一方面,AI會促成重大的歷史變革,它能自行決策、提出想法,將來還會使大量的非人類智能加入對歷史的研究當(dāng)中,它們擅長高速處理多模態(tài)的歷史資源,通過智能體模擬進(jìn)行“虛擬歷史實(shí)驗(yàn)”,可能提出對復(fù)雜社會的解釋系統(tǒng),挑戰(zhàn)人類學(xué)者的主體性,重新界定歷史學(xué)的存在邊界與獨(dú)特領(lǐng)域。另一方面,歷史學(xué)者如果能理解并掌握AI,可以增強(qiáng)歷史學(xué)的技藝,作為領(lǐng)域?qū)<覅⑴c審查AI訓(xùn)練的歷史數(shù)據(jù)集,從長期的歷史脈絡(luò)中揭示AI系統(tǒng)的價(jià)值內(nèi)嵌與認(rèn)識機(jī)制,評估AI的預(yù)測、決策,并將歷史學(xué)提供的對過去記憶與事實(shí)的選擇書寫,對人類活動(dòng)價(jià)值與意義的總結(jié)反思,通過數(shù)據(jù)構(gòu)建與算法改進(jìn),貫注作用于AI系統(tǒng),影響AI的走向。 以古代歷史研究為例,可以看到AI與歷史學(xué)者之間這種正在探索中的共同建構(gòu)。對于歷史研究工作的核心要素與基礎(chǔ)工作,AI能發(fā)揮積極作用,同時(shí)歷史學(xué)也有力量推動(dòng)AI從數(shù)據(jù)與算法兩方面改變現(xiàn)狀、提升性能。 為了理解古代社會、探究人群生活,歷史研究需要的史料搜集與處理技藝非常復(fù)雜,比如泥板、紙草、甲骨、金石、寫本這些載體的文獻(xiàn)修復(fù),古漢語、古希臘文等多種文字的識別與釋讀,圖像、雕塑、考古遺址的辨識、分類等。近年來,學(xué)者運(yùn)用深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)技術(shù),結(jié)合遷移學(xué)習(xí)等策略,貢獻(xiàn)出了前沿成果。中國科學(xué)院團(tuán)隊(duì)提高了甲骨文字符的自動(dòng)識別率;谷歌的模型Ithaca,能合理推斷古希臘銘文的時(shí)間與地理歸屬范圍;浙江大學(xué)團(tuán)隊(duì)實(shí)現(xiàn)了綴合敦煌寫本的自動(dòng)化流程;中國礦業(yè)大學(xué)團(tuán)隊(duì)發(fā)布敦煌壁畫的MuralDH圖像數(shù)據(jù)集,進(jìn)行分類、修復(fù)。2024年初,機(jī)器學(xué)習(xí)從碳化的意大利赫庫蘭尼姆卷軸里,識別出了莎草紙符,提供了古希臘哲學(xué)的新史料。像這類具有原創(chuàng)性和影響力的工作,都是由包括歷史學(xué)在內(nèi)的領(lǐng)域?qū)<遗c計(jì)算機(jī)科學(xué)家組成的跨學(xué)科團(tuán)隊(duì)完成,顯示出AI對歷史研究的來源,尤其是在多模態(tài)史料發(fā)掘、解析方面的效能。由于目前大多數(shù)的AI算法依賴英語等主流語種,偏重近現(xiàn)代的歷史訓(xùn)練集,在將AI運(yùn)用于古代語言的文本、圖像與考古對象時(shí),需要明顯擴(kuò)大數(shù)據(jù)的多樣性和包容性,在使AI處理古代歷史中非標(biāo)準(zhǔn)化的、異質(zhì)的、不完整的資料時(shí),也要同時(shí)推進(jìn)算法的批判性創(chuàng)新,這都顯示出歷史學(xué)研究將是助力AI突破結(jié)構(gòu)性限制的重要領(lǐng)域。 研究古代的學(xué)者,也可能遇到史料數(shù)量龐大或者類型復(fù)雜得難以把握,此時(shí)找尋到最合適的AI技術(shù),不僅使研究得以展開,還能發(fā)現(xiàn)隱藏的事實(shí),提出有解釋價(jià)值的新問題。在一項(xiàng)針對15至17世紀(jì)歐洲史的研究中,學(xué)者需要考察359本天文學(xué)教科書,其中含有76000頁文本、數(shù)萬幅科學(xué)插圖與天文表格。德國馬普所的研究人員通過機(jī)器學(xué)習(xí)來識別文本間的聯(lián)系,檢測、分類與聚類這些插圖和表格,歷史學(xué)者則從數(shù)據(jù)中看到了以前不被注意的事實(shí),即歐洲的科學(xué)知識傳播并不受宗教改革的分裂影響,而是呈現(xiàn)出凝聚與同質(zhì)化的形態(tài)。這一時(shí)段對應(yīng)著中國歷史上的明清時(shí)期,研究者們同樣也面臨著史料復(fù)雜煩瑣、文獻(xiàn)汗牛充棟的問題,對于在整理、分析與思考中如何運(yùn)用AI系統(tǒng)有著迫切的需求。比如對于明清檔案文獻(xiàn),中國人民大學(xué)團(tuán)隊(duì)提出了深度學(xué)習(xí)、人機(jī)協(xié)同的智能著錄標(biāo)引流程;對于地方志研究,中國社科院大學(xué)團(tuán)隊(duì)開發(fā)了專有工具,通過調(diào)用大語言模型的API端口,批量實(shí)現(xiàn)方志數(shù)據(jù)的多層次、多義性標(biāo)注,以知識圖譜進(jìn)行可視化呈現(xiàn)與分析。這些嘗試都希望能從明確的問題出發(fā),探索以數(shù)據(jù)建設(shè)為核心、以算法呈現(xiàn)歷史語境、具有透明性與可解釋性的研究工作流程,以一種符合職業(yè)與專業(yè)的要求,來推進(jìn)與AI的共構(gòu),使研究者把更多的時(shí)間和精力解放出來,真正用于歷史學(xué)的創(chuàng)造性思考、深度解釋以及價(jià)值反思。 在積極擁抱AI變化的歷史學(xué)者中,很多人從數(shù)字人文、數(shù)字史學(xué)的興起之時(shí)已經(jīng)在討論史學(xué)與AI的共生之道。在AI迅速發(fā)展、推理思考能力不斷迭代的當(dāng)下,相信還會有更多的歷史學(xué)家主動(dòng)了解AI運(yùn)作的機(jī)制,視其為學(xué)術(shù)助手、影子同行,共同建構(gòu)一種從思考、寫作到交流、教育的史學(xué)工作新生態(tài),這將是一場引人注目、面向未來的探索之旅。 (作者:向靜,系中國社科院大學(xué)數(shù)字史學(xué)研究中心副教授,本文系國家社科基金重點(diǎn)項(xiàng)目“清史地理信息系統(tǒng)開發(fā)與研究”的階段性成果) |
|