南洋大学校友业余网站

常用的中文电子文件类型

南大站


近年来,中文软体有了长足进展,中文电子文件的应用也随着逐日增广。认识不同的文件类型,有益文件处理工作。这里介绍一些常用的中文电子文件类型(file type)。

基本文档

电脑存储文件,最基本的格式是文本文档(Text File)。文本文件大都采用 .TXT 为文件类型。文本文件上的每一个字符(character),都表达一个简单的信息。

电脑软体由二进位数字(bit)组成,采用八位(二进)数字组成一个字节(byte)。八位(二进)数字最多只能表达512个字符,对于使用拉丁字母的拼音文字来说,每个字母占用一个不同的字符,加上标点和其他符号,游刃有余。对于数万的方块字来说,一个字节完全不足够应用。因此,目前采用双字节代表汉字字符。双字节字符(double byte charater set, DBCS)可以表达6,5536个字符,大抵能够涵盖常用的汉字。

采用双字节字符,要靠软体把文件上的双字节字符转换成方块字。目前中国以外的地区,多使用英语操作系统(Operating Systems),必须开启外挂(add-on)软体,才能直接输入汉字。常用的软体,有“紫光华宇”、“中文之星”、“南极星 Communicator”等。

应用文档

应用文档指的是要靠应用软体才能工作的有关文件,常用的中文应用软体是“南极星 CWP”,Word (2000 及以后版本)和超文本标示语言(html)等。

“南极星”文档,多数采用 .NJX 为文件类型;Word 一般采用 .DOC 为文件类型。应用文档的特点是隐含编辑控制指令,能够排出美观的形式,当然这也就使用了较多存贮空间,只有有关应用软体才能解读文件。

超文本标示语言(Hypertext Markup Language)文件,一般采用 .HTM 或者 .html 为文件类型。这种文件格式最接近文本文件格式,所用的编辑控制指令,都制成明示的标签(tag),用于控制网页浏览器显示功能。开发超文本标示语言的主要目标,是要所有的网页浏览器(browser)都能解读这种文件格式。如果系统里没有中文字型(font),经过一次下载,就可以阅读中文文件。这类文件格式,如果更近一步开发,可以取代其他编辑应用软体。

图象文档

最基本的图象文档是位映射格式(bit-map fromat),采用 .BMP 为文件类型。简单的说,这类文件把图象分割成上万的点阵,用数码存贮成文档。图象上的汉字不是字符,而是质量很好的真实笔墨,一看就可读出。只是,图象尺寸较大,消耗大量空间,输送传载时间长,要求电脑工作量大,通常都避免使用。

改进的图象文档格式众多,常用的有图形交换格式(GIF),联合图像专家组格式(JPEG)和标签图象文件格式(TIFF)等。

图形交换格式(Graphics Interchange Format )文件,采用 .GIF 为文件类型。图形交换格式文件,基本上把图象的重复点群压缩。解压后的图象与原图象完全一样,一点也不失真。这种图象格式存贮量小,还可制作活动图象。但是,图形交换格式只能存贮256种色彩,不适合保存精细的彩色照相。

联合图象专家组(Joint Picture Experts Group)文件格式,采用 .JPG,.JPE 或者 .JPEG 为文件类型。这种图象文件格式,适合有自然色彩过渡的照片或图象的存放,可以表达3,2768种色彩,所用存贮空间比较多。这类文件也可以压缩,压缩时可能有损图象质地,通常需要在存贮空间与图象失真之间,寻求两者的平衡。

标签图象文件格式(Tag Image File Format),采用 .TIF 或者 .TIFF 为文件类型。这种图象文件格式,容易把图象分区,应用在光读上,可以把汉字图象转换成汉字字符。

小结

总的来说,如果在电脑操作系统装设了中文附加软体,应用基本文本文件,可以节省存贮空间。如果要编排文件外形,打印美观,可用应用文档格式文件。如果要与别人交流信息,最方便的是超文本标示语言文件。在别无可用的时候,才采用图象格式文件。

2003-12-12

(按:电子文件是通俗的称呼,较准确的名称是数码文件。)



自强不息 力求上进

2003年12月12日首版 Created on December 12, 2003
2009年02月10日改版 Last updated on February 10, 2009