——張軸材談漢字交換碼標(biāo)準(zhǔn)建立歷程本報記者 黃偉敏 肖春江
GB2312:漢字信息技術(shù)的秦始皇
GB13000:四海皆準(zhǔn)“書同文”由于存在各自的利益,日、韓和中國臺灣省等國家和地區(qū)的漢字交換碼標(biāo)準(zhǔn)各唱各的戲,多種聲音雖然顯示“民主”,但給漢字信息交換帶來了相當(dāng)?shù)幕靵y。80年代中期,西文已在信息高速公路上加速前行,漢字卻仍在信息高速公路上開著拖拉機(jī)。 為了取得電腦時代的“書同文”,GB13000標(biāo)準(zhǔn),即《信息技術(shù)通用多八位編碼字符集》,滿懷統(tǒng)一大任的使命感,于1992年降臨人世。 GB13000是我國制定的與國際標(biāo)準(zhǔn)ISO/IEC 10646對應(yīng)的標(biāo)準(zhǔn),它標(biāo)志著ISO/IEC 10646標(biāo)準(zhǔn)的漢字編碼部分基本采納了我國方案。它的制訂,大體上經(jīng)歷了前期的斗爭和后期確立主導(dǎo)地位兩個階段。 斗爭期(1985年~1990年10月)。國際標(biāo)準(zhǔn)化組織ISO中主管信息技術(shù)標(biāo)準(zhǔn)制訂的技術(shù)委員會TC97(后更名為ISO-IEC/JTC1)于1984年底決定立項制訂“雙字節(jié)two-byte)編碼字符集”國際標(biāo)準(zhǔn),并在其字符集和編碼分委會SC2下設(shè)立工作組WG2專門負(fù)責(zé)該項目。 這段時期,國際上正因該標(biāo)準(zhǔn)究竟采用16位還是雙八位的編碼結(jié)構(gòu)吵架。我國贊成采用雙八位,提出漢字基本集和輔助集分別占用編碼空間右下角和左下角的方案。這個方案在1987年的ISO/TC97/SC2年會上得以通過,我國開始正式進(jìn)入國際標(biāo)準(zhǔn)起草階段。 1987年12月電子工業(yè)部決定把“漢字雙八位(多字節(jié))編碼體系(即多八位編碼字符集)研究”列入“七五”國家重點科技攻關(guān)項目,并立即成立了由電子部十五所、四所和國家語委等單位組成的攻關(guān)小組。 1988年攻關(guān)小組發(fā)現(xiàn)當(dāng)時新完成的標(biāo)準(zhǔn)DP 10646工作草案文本中存在兩個嚴(yán)重問題: (1)將祖國大陸用的漢字和臺灣省少用的漢字作為兩種文字排列在編碼字符的不同位置,把我國臺灣省的標(biāo)準(zhǔn)作為主要參考標(biāo)準(zhǔn)之一,以“中華民國標(biāo)準(zhǔn)”的名義列入。 (2)將原已商定的我國漢字占用編碼空間下半平面兩塊的方案改為只占左下塊。 帶著上述問題,我國參加SC2年會的代表團(tuán)在會上要求在“多八位編碼字符集”工作草案中去掉并修改有關(guān)我國臺灣省的不正確及不恰當(dāng)?shù)男形模暶魑覀儗⒙?lián)合我國臺灣省的同行一起討論解決海峽兩岸使用不同編碼標(biāo)準(zhǔn)的問題,并研制出統(tǒng)一的中國漢字字符集納入國際標(biāo)準(zhǔn)。這一意見被SC2采納。 由于日、韓的堅決反對,1990年SC2年會否決了我國提出的HCC方案(中、日、韓三國漢字經(jīng)認(rèn)同后,相同和認(rèn)同的漢字只給一個代碼,然后按某種順序統(tǒng)一排列。使常用的和次常用的中、日、韓漢字排列在BMP中)。在當(dāng)時的形勢下,作為緩沖,國內(nèi)有關(guān)專家提出了將BMP中的I00、I10和I11區(qū)留空,而將中、日、韓的表意文字分別旋轉(zhuǎn)在各自平面的一種折衷方案。該方案于1990年5月作為國家提案提交到WG2,獲得通過,并在第一個DIS文本中采納了該方案。WG2同時決定:BMP的I01、I10和I11區(qū)將來旋轉(zhuǎn)中、日、韓三國同意的C、J、K文字。 此后,我國暫停了在國際范圍內(nèi)進(jìn)行中、日、韓漢字統(tǒng)一編碼的理論上的爭論,在組織力量研究中國漢字字表的同時,啟動了緊張的建立“多字符集漢字?jǐn)?shù)據(jù)庫”的工作,進(jìn)而推進(jìn)從理論到實踐,從定性到定量,從手工到機(jī)助的轉(zhuǎn)化。 確立主導(dǎo)地位(1990年12月~1993年11月)。1990年11月我國正式成立了“通用字符集”國際工作組,由張軸材、王之任副組長,陳力為、傅永和任工作組高級顧問,成員共13名,包括了計算機(jī)系統(tǒng)、軟件、硬件、語言文字及標(biāo)準(zhǔn)化方面的專家及技術(shù)人員。 國際工作組成立之初便面臨著重大的抉擇。當(dāng)時ISO拒絕在DIS 10646中采用C、J、K漢字統(tǒng)一編碼,并采用回避C0、C1區(qū)的編碼結(jié)構(gòu)。與此同時,我國還面臨著世界上將出現(xiàn)兩套標(biāo)準(zhǔn)(UCS和Unicode)的嚴(yán)峻形勢。國標(biāo)工作組經(jīng)慎重研究,在短時間內(nèi)達(dá)成共識,確定了“立足基本中文平面,瞄準(zhǔn)基本多文種平面,注視/溝通Unicode”的方針。 1991年1月20日體現(xiàn)了CJK統(tǒng)一編碼原則的漢字字符集HCS1.0問世,國家技術(shù)監(jiān)督局破例預(yù)先給國標(biāo)號GB 13000。 1991年2月至3月在有關(guān)方面努力下,形成了Unicode中的漢字部分UniHan與HCS相互對齊的協(xié)議,并先后得到中國國標(biāo)工作組和Unicode技術(shù)委員會的批準(zhǔn)。為了真正實現(xiàn)CJK漢字統(tǒng)一編碼,我國又參加了CJK-JRG(中日韓聯(lián)合研究組)。1991年7月CJK-JRG的第一次會議一致確認(rèn)了漢字統(tǒng)一編碼的要求。此后,又選舉我國的張軸材同志擔(dān)任CJK-JRG的主編兼召集人,從而確立了我國在CJK-JRG中的主導(dǎo)地位。 1991年8月,WG2在日內(nèi)瓦舉行了第20次會議,確認(rèn)了CJK漢字統(tǒng)一編碼進(jìn)入BMP。我國提交的GB 13000漢字字符集HCSA2.1版作為工作起點,已在ISO文件記錄在案。以后,1991年12月初我國如期向ISO提交了CJK統(tǒng)一漢字字符集第一版(CJK V1.0)。1992年4月25日提交了CJKV2.0。至此,ISO/IEC 10646.1中的漢字編碼部分勝利完成。 由于ISO/IEC 10646.1是一個多文種的編碼標(biāo)準(zhǔn),因此除漢字外,ISO/IEC 10646.1中已將我國維、哈、柯文的字收入阿拉伯文;將我國朝鮮文字符與韓國文字符進(jìn)行了統(tǒng)一編碼;而蒙文、藏文和彝文等還有待今后擴(kuò)充收入ISO/IEC 10646(GB 13000)中。 1992年4月至7月,我國又應(yīng)ISO及AFII(國際字型交換協(xié)會,負(fù)責(zé)ISO/IEC 10646.1中字表的印刷工作)的要求,提交可供印刷ISO/IEC 10646.1中G屬下漢字的48×48點陣字型。 至此,國際標(biāo)準(zhǔn)ISO/IEC 10646.1及對應(yīng)的國家標(biāo)準(zhǔn)GB 13000.1中的漢字編碼及字型開發(fā)工作告一段落,而下一階段的編碼結(jié)構(gòu)擴(kuò)充方案及字匯擴(kuò)充方案的研制工作,也已馬不停蹄地展開。 |
|
來自: Ralf_Jones > 《其它》