南洋大学校友业余网站

中 文 编 码 知 多 少

南大站


大家都知道,目前流行两种中文编码:简体中文采用国标码(GB2312),繁体中文采用大五码(Big5)。两种编码,都用双字节字符(double-byte character) 编制内码。

繁体大五码,原是资讯工业应用的行业规范。1983年,台湾当局制定了《通用汉字标准交换码》,大五码(Big5) 成为繁体字编码标准。

国标码 GB2312 是中国在1980年颁布的国家标准交换码,收集了6763个汉字。1990年,又制定了GB13000编码。GB13000编码除了包含 GB2312 编码外,收集了《通用汉字标准交换码》中的繁体字,也收集了一些香港特别用字以及日文与韩文中的通用汉字,总共编入了2,0902个汉字。

在GB13000编码的基础上,中国于1995年发布了《汉字内码扩展规范》,制定了国家标准扩展码,简称国标扩(GBK)。国标扩向下与国标码GB2312完全兼容,向上支持国际标准 ISO 10646编码,编入了2,1886个字符。

微软视窗95中文版,开始支援国标扩,在英文版上运作的中文软体,也逐渐由只支援国标码GB2312,发展成为支援国标扩GBK全部字集。浏览器 Internet Explorer 第5版以后,可以在网页同时显示繁、简两种字体。在视窗98系统里,简体字用新字形,繁体用旧字形,看来有点怪异。视窗XP系统出现以后,繁体字有了新字形,繁、简字面趋向一致。

2000年,中国发布新标准编码GB18030,兼容GB13000编码,还收录了藏、蒙、维等族的文字,共有2,7533个字符。此标准兼用一、二及四字节字符,对应着国际标准的四字节统一码(Unicode)。

过去的电脑系统,大体是采用一、二字节字符。随着电脑系统向四字节字符发展,GB18030编码和统一码的应用已经逐步推广。浏览器 Internet Explorer 第7版出现以后,视窗XP系统已开始支持GB18030汉字编码,GBK码被GB18030编码涵盖。GB18030汉字编码涵盖了繁、简字符,俗称大字集字符。

微软的 WORD 2000(及以后版本),可说是支援GB18030汉字编码的常用软体。由于简、繁字同在一个编码里,输入时须注意选择只用简体字(或者繁体字、下文类推),才不会混用繁、简字。希望有关方面,能进一步开发好软体,输入显示字表时,标明简繁对应的汉字。或者,另外开发软体功能,把文件中的有对应简体的繁体字,对换成简体字。到时,参杂简、繁两种字体的文件,可以轻易转换成一致的字体。

通常所说的繁简字体对译,指的是国标GB2312编码与大五码(Big5)的对译,与大字集里内部繁简字的对换是两回事。南极星的中文处理系统,GB2312编码与Big5编码的对译功能,接近完善。南极星软体的内码是大五码,不是国标扩。南极星软体所指的GBK,实际与GB2312编码差不多。国标扩里GB2312编码以外的字集,要在南极星全球通(NJStar Commmunicator)选取GB18030编码才能正确显示。实际上,南极星的GB18030编码,只是涵盖部分国标扩字集而已,许多收入GB18030编码的字符,在南极星里都成了白字。在汉字的深入应用过程,南极星经常出现繁简字体对译的错误。

与南极星的全球通对应的外挂软体是中文之星。中文之星把国标扩分成简繁两部分,应用简体时,不能输入简体字集里没有的汉字;应用繁体时,不能显示简体字。如果在简体字的文件里,加入一些非常用字,容易造成乱码。中文之星用国标扩作内码,应该很容易进一步开发,完成输入和显示所有国标扩字集的功能。

近年来,涌现了不少比中文之星更先进的中文输入法。例如,紫光华宇拼音输入法,提供免费汉字输入基本工具,不但可以输入简、繁字符,也能够输入GB18030大字集字符。

另外,统一码采用四字节字符,能够涵盖世界各国文字。中日韩通用字符,被编入16进数区 4E00-9FBF。视窗XP字库支持此编码区,此区几乎包含所有汉字字符。一些输入软体没法输入的字符,可用 html码来暂时取代。例如,“齒”字的编码是 9F52,可以用 齒 显示。

中文编码正在趋向功能更完善、使用更简便的阶段。各个中文软体支持繁简字符的功能,有所不同。使用旧中文软体,要明了内中的缺陷,适巧使用,才能取得比较满意的效果。

2004-7-25



自强不息 力求上进

2004年07月25日首版 Created on July 25, 2004
2009年05月05日改版 Last updated on May 5, 2009