《紅樓夢》是一人所作?
《紅樓夢》成書迄今已逾200年,作為中國最重要的一部小說,它不僅感動了中國人,也得到其它民族的重視與喜愛。《紅樓夢》有各種不同的版本,數(shù)十種續(xù)書,流傳到世界各國,被翻譯成各種文字,透過不同的文字翻譯,感動了不同民族的人民。
長期以來,人們普遍認為曹雪芹只寫了《紅樓夢》的前80回,后40回是高鶚續(xù)寫,但數(shù)學(xué)統(tǒng)計進入文學(xué)領(lǐng)域后,這個定論遭到了計算機的質(zhì)疑。1981年,首屆國際《紅樓夢》研討會在美國召開,美國威斯康星大學(xué)講師陳炳藻獨樹一幟,宣讀了題為《從詞匯上的統(tǒng)計論〈紅樓夢〉作者的問題》的論文,首次借助計算機進行《紅樓夢》研究,轟動了國際紅學(xué)界。陳炳藻從字、詞出現(xiàn)頻率入手,通過計算機進行統(tǒng)計、處理、分析,對《紅樓夢》后40回系高鶚所作這一流行看法提出異議,認為120回均系曹雪芹所作。
語體風(fēng)格是人們在語言文字表達活動中的個人言語特征,是人格在語言文字活動中的某種體現(xiàn)。這種風(fēng)格可以在一定程序上通過數(shù)量特征來刻畫。例如,句長和詞長可以代表作者造詞句的風(fēng)格,當(dāng)然,反映作者風(fēng)格的不是單個詞的詞長和單個句子的句長,而是以一定數(shù)量的語料為基礎(chǔ)的平均句長和平均詞長;此外,字、詞在作品中出現(xiàn)的頻率也是個人風(fēng)格的體現(xiàn)。利用計算機計算一部作品或作者平均詞長和平均句長,對作品或作者使用的字、詞、句的頻率進行統(tǒng)計研究,從而了解作者的風(fēng)格,這被稱之為計算風(fēng)格學(xué)。計算風(fēng)格學(xué)現(xiàn)在在社會科學(xué)領(lǐng)域成為一門饒有興味的學(xué)科,尤其在判斷作者真?zhèn)?,考證作者疑難方面更是大顯身手。
讓佚名作現(xiàn)身
“作者考證”有時是一個很困難的問題,計算風(fēng)格學(xué)可被應(yīng)用來解決這種問題。我們看看兩個例子。
出現(xiàn)于16世紀90年代的一部五幕劇《愛德華三世》,表現(xiàn)了14世紀英王愛德華三世統(tǒng)治時期勇武的騎士精神。但該劇作者究竟是誰,戲劇界爭論了幾百年。不久前,通過電腦對該劇的語言風(fēng)格進行分析,莎翁作品的權(quán)威機構(gòu)——阿頓公司正式確認,《愛德華三世》是莎士比亞的一部早期作品。莎劇專家說,這部作品本身所表現(xiàn)出的深刻人性、博大精神和文辭語言的華麗無可辯駁地“用莎士比亞自己的聲音”證明了它的來源。
1964年,美國統(tǒng)計學(xué)家摩斯泰勒和瑕萊斯考證了12篇署名“聯(lián)邦主義者”的文章作者,可能的作者是兩個人,一個是美國開國政治家漢密爾頓,另一位是美國第四任總統(tǒng)麥迪遜。究竟是哪一位呢?統(tǒng)計學(xué)家在進行分析時發(fā)現(xiàn)漢密爾頓和麥迪遜在已有著作中的平均句長幾乎完全相同。這使得這一能反映寫作風(fēng)格特征的數(shù)據(jù)此時失效了。于是,統(tǒng)計學(xué)家轉(zhuǎn)而從用詞習(xí)慣上來找出這兩位作者的有區(qū)別性的風(fēng)格特征,而且終于找到了兩位作者在虛詞的使用上有明顯的不同。漢密爾頓他已有的18篇文章中,有14篇使用了“enough”一詞;而麥迪遜在他的14篇文章中根本未使用“enough”一詞。漢密爾頓喜歡用“while”,而麥迪遜總是用“whilst”。漢密爾頓喜歡用“upon”,而麥迪遜很少用。然后,再把兩位可能的作者的上述風(fēng)格特征指標,與未知的12篇署名“聯(lián)邦主義者”的文章中表現(xiàn)出來的相應(yīng)的風(fēng)格特征進行比較。結(jié)果發(fā)現(xiàn)那位署名“聯(lián)邦主義者”的作者就是美國第四任總統(tǒng)麥迪遜。這樣就了結(jié)了這一考據(jù)學(xué)上長期懸而未決的公案。兩位統(tǒng)計學(xué)家所使用的數(shù)學(xué)方法也得到了學(xué)術(shù)界的好評。
《靜靜的頓河》是不是抄襲?
長篇小說《靜靜的頓河》是一部既磅礴壯觀又委婉細膩、扣人心弦的史詩性長篇小說,是當(dāng)代世界文學(xué)中流傳最廣泛、讀者最多的名著之一。他的作者肖洛霍夫因此獲得1965年諾貝爾文學(xué)獎。但小說出版后即有人說這本書是肖洛霍夫從一位名不見經(jīng)傳的哥薩克作家克留柯夫那里抄襲來的。俄國流亡在國外的一些作家如索爾仁尼琴、麥德維杰等,認為《靜靜的頓河》的大部份內(nèi)容是抄襲哥薩克作家克留科夫的作品,理由是該書第一卷出版時,肖洛霍夫年紀尚輕,并無生活經(jīng)歷;另外,他以后未能寫出具有同樣文學(xué)價值的作品。肖洛霍夫充其量是合作者罷了。
為了弄清楚誰是《靜靜的頓河》的真正作者,捷澤等學(xué)者采用計算風(fēng)格學(xué)的方法進行考證。具體辦法是把《靜靜的頓河》四卷本同肖洛霍夫、克留柯夫這兩人的其他在作者問題上沒有疑義的作品都用計算機進行分析,獲得可靠的數(shù)據(jù),并加以比較,以期澄清疑問,得出誰是真正作者的結(jié)論。
捷澤等學(xué)者從〈靜靜的頓河》中隨機地挑選出2000個句子,再從肖洛霍夫、克留柯夫的各一篇小說中隨機地挑先500個句子,總共3組樣本,3000個句子,輸入計算機進行處理。處理的步驟如下:
1、首先計算句子的平均長度,結(jié)果3組樣本十分接近。于是再按不同的長度細分成若干組,對3組樣本中對應(yīng)的句子組進行比較,發(fā)現(xiàn)肖洛霍夫的小說與《靜靜的頓河》比較吻合,而克留柯夫的小說與《靜靜的頓河》相距甚遠。
2、進行詞類統(tǒng)計分析。從3個樣本中各取出10000個單詞,結(jié)果發(fā)現(xiàn),除了代詞以外,有6類詞肖洛霍夫的小說都與《靜靜的頓河》相等,而克留柯夫的小說則與之不相符。
3、考察處在句子中的不同位置的詞類狀況。俄語的詞類在句子中的不同位置可以很好地表現(xiàn)文體的風(fēng)格特點,特別是句子開頭的兩個詞和句子結(jié)尾的3個詞往往可以起到區(qū)分文體風(fēng)格的作用。捷澤等學(xué)者統(tǒng)計了3種樣本中句子開頭的詞類和句子結(jié)尾的詞類,發(fā)現(xiàn)肖洛霍夫的小說與《靜靜的頓河》十分接近,而克留柯夫的小說則與之有相當(dāng)大的距離。
4、進行句子結(jié)構(gòu)的分析,統(tǒng)計3種樣本中句子的最常用格式。結(jié)果發(fā)現(xiàn),肖洛霍夫的小說與《靜靜的頓河》的最常見句式都是“介詞+體詞”起始的句子,而克留柯夫的小說的最常見句式是以:“主詞+動詞”起始的句子。
5、統(tǒng)計3種樣本中頻率最高的15種開始句子的結(jié)構(gòu),發(fā)現(xiàn)肖洛霍夫小說中有14種結(jié)構(gòu)與《靜靜的頓河》相符,而克留柯夫小說中只有5種出現(xiàn)在《靜靜的頓河》中。
6、統(tǒng)計3種樣本中頻率最高的15種結(jié)尾句子的結(jié)構(gòu),發(fā)現(xiàn)肖洛霍夫小說中15種結(jié)構(gòu)與《靜靜的頓河》完全相符,而克留柯夫小說中結(jié)尾句子的結(jié)構(gòu)與《靜靜的頓河》完全不符。
根據(jù)以上6個方面的統(tǒng)計結(jié)果與分析,捷澤等人已可以下結(jié)論:《靜靜的頓河》的真正作者是肖洛霍夫。然而,捷澤等人對于這樣一部世界名著,這樣一個世界文學(xué)界的重大疑案,采取了十分謹慎的態(tài)度,為了精益求精,他們在更大規(guī)模基礎(chǔ)上進行研究,最終確定《靜靜的頓河》確實是肖洛霍夫的作品,他在寫作時或許參考過克留柯夫的手稿。后來,原蘇聯(lián)文學(xué)研究者從另外一些方面又進一步證實了肖洛霍夫是《靜靜的頓河》的真正作者。
計算風(fēng)格學(xué)不僅能考證作者,還作者一個清白,在更廣闊的范圍內(nèi),通過對不同時期的文學(xué)家作品的統(tǒng)計計算,還可以反映一個時代的文化風(fēng)格變遷。曾有人對20位德語作者的22部著作的平均詞長和平均句長進行過計算,從而發(fā)現(xiàn)了德語書面語言的句子有變短的趨勢。(魯秋楓)
《大科技》 2004年04月21日