人工智能又來插手文學(xué)界了,只不過這一次是用來「找作者」。 對于一部分文學(xué)作品來說,倘若創(chuàng)作者并不確定,再加上年代久遠,沒有詳細的史料記載,作者問題往往就會成為眾說紛紜的謎團。 想要發(fā)現(xiàn)事實的真相,需要后世的研究學(xué)者們,花費大量的精力去查找資料,進行研究對比。即便如此,也常常因為一些局限性而得不到最關(guān)鍵的證據(jù)。 不過,在人工智能的介入之下,似乎又多了一條撥開迷霧的道路。 用數(shù)據(jù)科學(xué)求證《紅樓夢》的作者對于《紅樓夢》,普遍都認為是曹雪芹創(chuàng)作了前八十回,高鶚整理續(xù)寫了后四十回,胡適、俞平伯、周汝昌等文學(xué)家也都贊同這一說法。 但文學(xué)界也有很多不同的聲音,包括魯迅、林語堂、王國維、白先勇等多位大師都認為:全一百二十回都是曹雪芹一人完成。 1. 1980 年發(fā)表的統(tǒng)計學(xué)研究 早在 1980 年的首屆國際《紅樓夢》研討會上,就有研究者使用計算機的統(tǒng)計方法,嘗試找出它的實際作者。 美國威斯康星州立大學(xué)的華裔學(xué)者陳炳藻先生,發(fā)布了一篇《從詞匯上的統(tǒng)計論〈紅樓夢〉的作者問題》的論文,引起了國際紅學(xué)界的注意。 陳炳藻將《紅樓夢》一百二十回本按順序編成三組,每組四十回。還將另一部小說《兒女英雄傳》作為第四組進行對比研究。 《紅樓夢》作者的相關(guān)研究已經(jīng)持續(xù)了數(shù)百年 從每組中任取八萬字,分別挑出名詞、動詞、形容詞、副詞、虛詞這五種詞,通過當(dāng)時的計算程序?qū)@些詞進行編排、統(tǒng)計、比較和處理,進而找出各組相關(guān)程度。 統(tǒng)計學(xué)的結(jié)果發(fā)現(xiàn)《紅樓夢》前八十回,與后四十回所用的詞匯正相關(guān)程度達 78.57%,而《紅樓夢》與《兒女英雄傳》所用詞的正相關(guān)程度是 32.14%。 由此陳炳藻教授作出推斷,前八十回與后四十回的作者均為曹雪芹一人所寫。 2. 現(xiàn)代 SVM 算法研究 但如果用機器學(xué)習(xí)去判斷,又會得出怎樣的結(jié)論呢? 近年來就有一位工程師,利用簡單的算法分析,去研究紅樓夢的作者問題。他使用了 Python 工具,通過小說中用詞的頻率等特點進行了訓(xùn)練,以區(qū)分不同部分的風(fēng)格問題。 他將全書進行分詞,并進行詞頻統(tǒng)計,找出其中的高頻詞匯后,在每個章節(jié)中對其進行次數(shù)統(tǒng)計,以此得到了不同章回用詞習(xí)慣的區(qū)別。 然后使用 SVM 算法搭建了一個模型,從前 80 回和后 40 回中,各選一部分章節(jié)喂給模型來學(xué)習(xí)寫作特點,并把剩下的章節(jié)作為輸入,讓計算機來判斷它們屬于哪個部分。 最終模型能夠以 95% 的準(zhǔn)確度來進行預(yù)測判斷,從而側(cè)證了前 80 回和后 40 回在算法模型中,具有很明顯的寫作風(fēng)格差異,屬于不同的作者。 前 80 回(紅色)和后 40 回(藍色)用詞習(xí)慣統(tǒng)計 這個項目也有缺點,比如選取的特征太少,最終選擇作為指標(biāo)的詞匯只有 278 個,而且訓(xùn)練的內(nèi)容局限于一本書中,沒能嚴(yán)謹?shù)卣f明問題。 如果說對《紅樓夢》的作者分析只是小試牛刀,那么最近一位科學(xué)家對名著《亨利八世》的作者研究,則準(zhǔn)確和嚴(yán)謹了許多。 作者成謎的《亨利八世》,AI 出手了和《紅樓夢》一樣,英國著名的戲劇文學(xué)《亨利八世》,也遇到了同樣的問題,它被稱為是莎士比亞的最后一部作品,但它的實際作者卻可能不止一位。 歷史上的亨利八世是一位極其暴虐的君主,堪比更暗黑的秦始皇,僅在 1513-1547 年間,他就下令處決了約72,000 名政治犯,甚至還將六任妻子中的兩位送上了斷頭臺。 因為人物本身的話題性和傳奇性,關(guān)于他的文學(xué)及影視作品一直層出不窮,比如小說及改編的同名電影《另一個波琳家的女孩》、電視劇《都鐸王朝》等。 《另一個波琳家的女孩》講述了亨利八世的暴戾薄情,由「黑寡婦」斯嘉麗約翰遜和「黑天鵝」娜塔莉波特曼出演 劇本《亨利八世》創(chuàng)作于 1612 年,它是基于亨利八世的相關(guān)事件進行的改編和演繹,曾被多次搬上舞臺,取得了很大社會反響。 但很多人在研讀了文本之后,發(fā)現(xiàn)它的寫作風(fēng)格,都和沙翁的其他作品有太大出入。 有人質(zhì)疑它是旁人所作,或者是合作的產(chǎn)物。直到 1850 年,有研究者具體地指出另一位劇作家弗萊徹可能是《亨利八世》合作者。
弗萊徹(左)在莎士比亞(右)退任后成為了國王劇團的主劇作家 接下來的一個世紀(jì)里,關(guān)于作者的爭論一直沒有停息,甚至有一些觀點里,認為第三位劇作家馬辛格也參與了創(chuàng)作。 這個謎團,因為最近的一項研究而變得明朗起來。一位數(shù)據(jù)科學(xué)家,利用 AI 算法,更細致地找出了戲劇《亨利八世》的原作者,而且具體到了文中的每一個小節(jié)。 機器學(xué)習(xí)顯身手,判定誰是真的作者布拉格捷克科學(xué)院的研究員普列查奇(PetrPlechá?) ,最近使用了機器學(xué)習(xí)技術(shù),來識別《亨利八世》中的作者問題,并取得具有說服力的結(jié)果。他的成果被寫成論文,傳到了 arXiv 上。 地址:https:///pdf/1911.05652.pdf 在這項工作中,普萊查從數(shù)據(jù)科學(xué)的維度,確定了《亨利八世》每一部分究竟是出自誰的手筆,并且給出了具體的論據(jù)。 他通過分析文本作品的內(nèi)容,確定出不同作者的寫作風(fēng)格的某些特征,以此對作品進行辨別,并進行細致的劃分和歸類。 算法最后將《亨利八世》的某些章節(jié)歸功于莎士比亞,而另一些則判給了弗萊徹,兩個人對著作的的貢獻幾乎相等。不僅如此,算法還細化出了具體每個小節(jié)的作者。 1623 年首次出版的《亨利八世》首頁 最終,機器學(xué)習(xí)給出的作者劃分,符合此前某一項主流研究的觀點,并且還取得了一些突破。 從詞匯和節(jié)奏入手,辨別文本的來源他具體是怎么做到的呢? 一旦了解了作者的風(fēng)格和常用的字詞和樣式,便可以用來辨別新作品中的文本習(xí)慣樣式,以判斷它是不是出自同一個作者。 在這項研究中,讓算法模型對文本常用詞、以及常用語句節(jié)奏模式,進行學(xué)習(xí)分析,以使算法學(xué)會辨別這些特征。 對語句節(jié)奏(rhythmic types)和常用詞進行綜合分析,并在其他作品上驗證的模型準(zhǔn)確度接近于 1 具體來說,要先將劇本細化到多個小的場景,并使用支持向量機對《亨利八世》的各個場景,進行歸因分析,并進行分類。 其中,以 500 種最常見的節(jié)奏類型的頻率,以及 500 個最常見單詞的頻率作為分類器的功能集。 鑒于作者在不同時期可能出現(xiàn)的風(fēng)格差異,研究者采用了同時期其他戲劇的場景(如《暴風(fēng)雨》、《科里奧拉納斯》)作為訓(xùn)練樣本。對于可能的作者,也同樣收集了訓(xùn)練樣本。 最終收集了53 個莎士比亞訓(xùn)練樣本,90 個弗萊徹訓(xùn)練樣本和 46 個馬辛格訓(xùn)練樣本。為了估計模型的準(zhǔn)確性,還通過交叉驗證的方式進行檢驗。 完成訓(xùn)練學(xué)習(xí)后,將模型在《亨利八世》的文本上運行,結(jié)合詞匯和多功能化的綜合分析,確定哪些作者參與了劇本的寫作,以及他們的具體貢獻。 最后的結(jié)果證明,這是區(qū)分兩位作者風(fēng)格的非??煽康呐袚?jù)。尤其是使用常用詞和常用節(jié)奏的組合模型,在三位作者的風(fēng)格鑒定上,準(zhǔn)確率高于 96%。 分類器對不同章節(jié) 30 個樣本的分類結(jié)果,結(jié)果比公認最權(quán)威的作者劃分(最后一欄)更細致 當(dāng)應(yīng)用于《亨利八世》的分析時,結(jié)果清楚地表明兩位作者都參與其中。另一位傳聞的劇作家馬辛格,則在算法的層面上表明他和劇本無關(guān)。 新方法細化出每個小節(jié)的作者為了更可靠地了解具體作者承擔(dān)的份額,超越特定場景的簡單歸因,普萊查奇采用了叫做滾動歸因(rolling attribution)的分析方法,確定具體文本片段的屬于某位作者的概率。 滾動歸因是一項針對涉及混合作者身份的案例的技術(shù)。在滾動歸因中,不對整個文本或其邏輯部分(章節(jié),場景等)進行分類,而是對其固定長度的重疊部分進行分類任務(wù)。 滾動歸因判斷兩位作者其他作品的作者組成和實際中的情況高度符合 該方法使用移動窗口的概念,并與標(biāo)準(zhǔn)的監(jiān)督分類技術(shù)相結(jié)合。旨在評估離散文本樣本之間的樣式差異,以測試其文本樣式的一致性。 結(jié)果表明,結(jié)合了詞匯特征的滾動歸因方法是非??煽康模涸趨^(qū)分莎士比亞和弗萊徹時,估計滾動歸因的準(zhǔn)確性高達 0.9977。 具體到每個章節(jié)的作者劃分和可信度 使用這種方法,最后具體確定了每個章節(jié)歸屬于某個作者的可能性,在上圖中,可以清晰地看到莎士比亞和弗萊徹各自完成的章節(jié)。結(jié)論就是:莎士比亞和弗萊徹各完成了近一半的內(nèi)容創(chuàng)作。 AI 在文學(xué)領(lǐng)域摩拳擦掌通過 AI 算法,去破解名著的作者之謎,對于文學(xué)研究者和愛好者來說,都是一件很有價值的事情。同時也提供了一個數(shù)據(jù)維度的視角,去看待此類問題。 當(dāng)然,類似的 AI 方法除了應(yīng)用于作者鑒定,代筆或者抄襲判斷,還可以結(jié)合 GPT-2 之類的技術(shù),生成某一風(fēng)格的作品,這對那些在歷史長河中遺失的著作,或許能夠進行更好的還原。 如果借鑒到音樂和繪畫等方面,不僅可用于確定作者身份,還能利用已知作者的風(fēng)格來創(chuàng)作出新的作品。 這么想想,AI 成為大文豪的日子似乎也可以提上日程了呢。 |
|