日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

“漢字”再統(tǒng)一

 Ralf_Jones 2006-07-20

——張軸材談漢字交換碼標(biāo)準(zhǔn)建立歷程

本報記者 黃偉敏 肖春江
    如果中文詞匯也由0、1兩個元素構(gòu)成,大概就不需要漢字交換碼這門學(xué)問了??上苏J(rèn)識的是漢字,計算機(jī)卻偏認(rèn)二進(jìn)制代碼死理,人們只好削足適履,發(fā)明漢字交換碼這種人與機(jī)的交流工具。而為了避免一盤散沙式的混亂交流,還要建立更重要的統(tǒng)一編碼標(biāo)準(zhǔn),以便使應(yīng)用規(guī)范化。CJK-JRK漢字交換碼中日韓聯(lián)合研究組主編兼召集人張軸材先生介紹了漢字交換碼標(biāo)準(zhǔn)的建立歷程。

GB2312:漢字信息技術(shù)的秦始皇


    我國漢字信息技術(shù)標(biāo)準(zhǔn)化,首先選擇了制定漢字交換碼標(biāo)準(zhǔn)。1980年發(fā)布的GB2312《信息交換用漢字編碼字符集》基本集是第一個漢字信息技術(shù)標(biāo)準(zhǔn),也是我國信息技術(shù)領(lǐng)域內(nèi)重要的基礎(chǔ)標(biāo)準(zhǔn)。它的廣泛實施,對于促進(jìn)漢字信息技術(shù)發(fā)展和計算機(jī)的推廣應(yīng)用,保證全國范圍內(nèi)漢字處理系統(tǒng)、漢字通信系統(tǒng)的信息交換,發(fā)揮了重要作用,是信息時代名副其實的的秦始皇。
    GB2312解決的第一個問題,就是選定能容納數(shù)萬漢字的中西文兼容的編碼體系。GB2312用兩個七位字節(jié)表示漢字的編碼方案。設(shè)定若干編碼集合,每個可容納8836個字符,這樣只要選用幾個集合,就能解決全部漢字編碼的問題。
    第二個要解決的問題是選定放入基本集的漢字。GB2312以文化部發(fā)布的“印刷通用字形表”為依據(jù),以漢字頻度的高低、構(gòu)詞能力的強(qiáng)弱、實際用處的大小為原則進(jìn)行選字,最后選定6763個漢字和682個其他字符進(jìn)入基本集,并按人們普遍熟知的規(guī)律對所選漢字進(jìn)行分級和排序,形成了標(biāo)準(zhǔn)圖形字符代碼表。
    GB2312只是對廣泛通用的漢字進(jìn)行編碼,它適用于一般漢字信息處理系統(tǒng)的要求。繼GB2312之后,又?jǐn)U充制定了GB7589、GB12345、GB113131等5個輔助集標(biāo)準(zhǔn),共收了將近四萬個漢字,它們形成了漢字交換碼的標(biāo)準(zhǔn)系列。

GB13000:四海皆準(zhǔn)“書同文”


    由于存在各自的利益,日、韓和中國臺灣省等國家和地區(qū)的漢字交換碼標(biāo)準(zhǔn)各唱各的戲,多種聲音雖然顯示“民主”,但給漢字信息交換帶來了相當(dāng)?shù)幕靵y。80年代中期,西文已在信息高速公路上加速前行,漢字卻仍在信息高速公路上開著拖拉機(jī)。 為了取得電腦時代的“書同文”,GB13000標(biāo)準(zhǔn),即《信息技術(shù)通用多八位編碼字符集》,滿懷統(tǒng)一大任的使命感,于1992年降臨人世。
    GB13000是我國制定的與國際標(biāo)準(zhǔn)ISO/IEC 10646對應(yīng)的標(biāo)準(zhǔn),它標(biāo)志著ISO/IEC 10646標(biāo)準(zhǔn)的漢字編碼部分基本采納了我國方案。它的制訂,大體上經(jīng)歷了前期的斗爭和后期確立主導(dǎo)地位兩個階段。
    斗爭期(1985年~1990年10月)。國際標(biāo)準(zhǔn)化組織ISO中主管信息技術(shù)標(biāo)準(zhǔn)制訂的技術(shù)委員會TC97(后更名為ISO-IEC/JTC1)于1984年底決定立項制訂“雙字節(jié)two-byte)編碼字符集”國際標(biāo)準(zhǔn),并在其字符集和編碼分委會SC2下設(shè)立工作組WG2專門負(fù)責(zé)該項目。
    這段時期,國際上正因該標(biāo)準(zhǔn)究竟采用16位還是雙八位的編碼結(jié)構(gòu)吵架。我國贊成采用雙八位,提出漢字基本集和輔助集分別占用編碼空間右下角和左下角的方案。這個方案在1987年的ISO/TC97/SC2年會上得以通過,我國開始正式進(jìn)入國際標(biāo)準(zhǔn)起草階段。
    1987年12月電子工業(yè)部決定把“漢字雙八位(多字節(jié))編碼體系(即多八位編碼字符集)研究”列入“七五”國家重點科技攻關(guān)項目,并立即成立了由電子部十五所、四所和國家語委等單位組成的攻關(guān)小組。
    1988年攻關(guān)小組發(fā)現(xiàn)當(dāng)時新完成的標(biāo)準(zhǔn)DP 10646工作草案文本中存在兩個嚴(yán)重問題:
    (1)將祖國大陸用的漢字和臺灣省少用的漢字作為兩種文字排列在編碼字符的不同位置,把我國臺灣省的標(biāo)準(zhǔn)作為主要參考標(biāo)準(zhǔn)之一,以“中華民國標(biāo)準(zhǔn)”的名義列入。
    (2)將原已商定的我國漢字占用編碼空間下半平面兩塊的方案改為只占左下塊。
    帶著上述問題,我國參加SC2年會的代表團(tuán)在會上要求在“多八位編碼字符集”工作草案中去掉并修改有關(guān)我國臺灣省的不正確及不恰當(dāng)?shù)男形模暶魑覀儗⒙?lián)合我國臺灣省的同行一起討論解決海峽兩岸使用不同編碼標(biāo)準(zhǔn)的問題,并研制出統(tǒng)一的中國漢字字符集納入國際標(biāo)準(zhǔn)。這一意見被SC2采納。
    由于日、韓的堅決反對,1990年SC2年會否決了我國提出的HCC方案(中、日、韓三國漢字經(jīng)認(rèn)同后,相同和認(rèn)同的漢字只給一個代碼,然后按某種順序統(tǒng)一排列。使常用的和次常用的中、日、韓漢字排列在BMP中)。在當(dāng)時的形勢下,作為緩沖,國內(nèi)有關(guān)專家提出了將BMP中的I00、I10和I11區(qū)留空,而將中、日、韓的表意文字分別旋轉(zhuǎn)在各自平面的一種折衷方案。該方案于1990年5月作為國家提案提交到WG2,獲得通過,并在第一個DIS文本中采納了該方案。WG2同時決定:BMP的I01、I10和I11區(qū)將來旋轉(zhuǎn)中、日、韓三國同意的C、J、K文字。
    此后,我國暫停了在國際范圍內(nèi)進(jìn)行中、日、韓漢字統(tǒng)一編碼的理論上的爭論,在組織力量研究中國漢字字表的同時,啟動了緊張的建立“多字符集漢字?jǐn)?shù)據(jù)庫”的工作,進(jìn)而推進(jìn)從理論到實踐,從定性到定量,從手工到機(jī)助的轉(zhuǎn)化。
    確立主導(dǎo)地位(1990年12月~1993年11月)。1990年11月我國正式成立了“通用字符集”國際工作組,由張軸材、王之任副組長,陳力為、傅永和任工作組高級顧問,成員共13名,包括了計算機(jī)系統(tǒng)、軟件、硬件、語言文字及標(biāo)準(zhǔn)化方面的專家及技術(shù)人員。
    國際工作組成立之初便面臨著重大的抉擇。當(dāng)時ISO拒絕在DIS 10646中采用C、J、K漢字統(tǒng)一編碼,并采用回避C0、C1區(qū)的編碼結(jié)構(gòu)。與此同時,我國還面臨著世界上將出現(xiàn)兩套標(biāo)準(zhǔn)(UCS和Unicode)的嚴(yán)峻形勢。國標(biāo)工作組經(jīng)慎重研究,在短時間內(nèi)達(dá)成共識,確定了“立足基本中文平面,瞄準(zhǔn)基本多文種平面,注視/溝通Unicode”的方針。
    1991年1月20日體現(xiàn)了CJK統(tǒng)一編碼原則的漢字字符集HCS1.0問世,國家技術(shù)監(jiān)督局破例預(yù)先給國標(biāo)號GB 13000。
    1991年2月至3月在有關(guān)方面努力下,形成了Unicode中的漢字部分UniHan與HCS相互對齊的協(xié)議,并先后得到中國國標(biāo)工作組和Unicode技術(shù)委員會的批準(zhǔn)。為了真正實現(xiàn)CJK漢字統(tǒng)一編碼,我國又參加了CJK-JRG(中日韓聯(lián)合研究組)。1991年7月CJK-JRG的第一次會議一致確認(rèn)了漢字統(tǒng)一編碼的要求。此后,又選舉我國的張軸材同志擔(dān)任CJK-JRG的主編兼召集人,從而確立了我國在CJK-JRG中的主導(dǎo)地位。
    1991年8月,WG2在日內(nèi)瓦舉行了第20次會議,確認(rèn)了CJK漢字統(tǒng)一編碼進(jìn)入BMP。我國提交的GB 13000漢字字符集HCSA2.1版作為工作起點,已在ISO文件記錄在案。以后,1991年12月初我國如期向ISO提交了CJK統(tǒng)一漢字字符集第一版(CJK V1.0)。1992年4月25日提交了CJKV2.0。至此,ISO/IEC 10646.1中的漢字編碼部分勝利完成。
    由于ISO/IEC 10646.1是一個多文種的編碼標(biāo)準(zhǔn),因此除漢字外,ISO/IEC 10646.1中已將我國維、哈、柯文的字收入阿拉伯文;將我國朝鮮文字符與韓國文字符進(jìn)行了統(tǒng)一編碼;而蒙文、藏文和彝文等還有待今后擴(kuò)充收入ISO/IEC 10646(GB 13000)中。
    1992年4月至7月,我國又應(yīng)ISO及AFII(國際字型交換協(xié)會,負(fù)責(zé)ISO/IEC 10646.1中字表的印刷工作)的要求,提交可供印刷ISO/IEC 10646.1中G屬下漢字的48×48點陣字型。
    至此,國際標(biāo)準(zhǔn)ISO/IEC 10646.1及對應(yīng)的國家標(biāo)準(zhǔn)GB 13000.1中的漢字編碼及字型開發(fā)工作告一段落,而下一階段的編碼結(jié)構(gòu)擴(kuò)充方案及字匯擴(kuò)充方案的研制工作,也已馬不停蹄地展開。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多