文档库 最新最全的文档下载
当前位置:文档库 › 编码字符集标准及分类研究_谢谦

编码字符集标准及分类研究_谢谦

编码字符集标准及分类研究_谢谦
编码字符集标准及分类研究_谢谦

中 文 信 息 学 报

第20卷第5期 J OURNAL OF CH I NESE I NF OR MATI O N P ROCESSI NG V ol.20N o.5文章编号:1003-0077(2006)05-0083-08

编码字符集标准及分类研究

谢 谦1,2,芮建武1,吴 健1

(1.中国科学院软件研究所开放系统与中文信息处理中心,北京 100080;2.河南大学计算机与

信息工程学院,河南开封 475001)

摘要:编码字符集标准是计算机处理文字信息的基础,本文提出了编码字符集三元组抽象,对现有编码字符集标准进行了简单回顾和总结,深入剖析了影响巨大的ISO2022标准及其派生标准,对ISO2022编码机制应用于多语言环境的局限性进行了探讨,阐明了使用通用编码字符集UCS的必要性,并对其进行了分析。探讨了现有编码分类方法存在的问题,引入了一种对编码字符集以及实现方法进行分类的新方法,使用该方法对现有标准进行了归类;最后对汉字字符集相关的国家标准进行了分析评介。

关键词:计算机应用;中文信息处理;编码字符集

中图分类号:TP391 文献标识码:A

Research on Coded Character Set Standards and C lassification

X I E Q ian1,2,RU I Jian-wu1,W U Jian1

(1.Open Syste m and Ch i nes e Infor m ati on Processi ng Cen ter,Institute of Soft w are,C h i nes e A cade m y of S ci en ces,B eiji ng100080,

Ch i na;2.S chool of Compu t er and In for m ation Engineeri ng,H enan Un i versity,Kaifeng,H enan475001,Ch ina)

Ab strac t:Coded character se t standa rd are t he base s of t he co m puter t ex t infor m ati on processing.In t his pape r,a3-turples m ode l is proposed t o descibe the coded character se.t The ex isting code standards are reviewed and su mma-rized.A nd t he ISO2022and it's deriv i ng standards are ana l y zed in de tail;incl uding the li m ita tion o f u tilizi ng IS O 2022in m ultili ngua l env iron m en.t N ecessit y o f foundi ng UCS(U niversa lCha racter Se t)is present ed,a long w it h an outline ana l y sis o f UCS.A ft e r eva l uating current c l assifica tion m e t hods o f coded character set standa rds,a new m eth-od is produced w ith applica tion i n ca talogu i ng existing standa rds.W e c l o se ou r paper w ith a brief ana l ysis of i m po r-tan t Chinese na tiona l st andards on Han character se.t

K ey word s:compu t e r applicati on;Ch i nese inf o r m ati on processing;coded character se t

计算机应用从单纯的科学计算转向信息处理,是引发二十世纪信息革命的里程碑事件,而支撑这一转变的重要基础就是字符编码;通过制定字符编码标准,在人能理解的文字信息与计算机内部表达之间建立了一个基本的沟通桥梁,直到今天,基于文字的交互途径仍然是最主要的人机界面。正如Unicode标准中所言[1],“对计算机软件系统而言,字符编码就像螺钉和螺母———虽然微小,却以各种方式被普遍使用。”

收稿日期:2005-07-08 定稿日期:2006-05-22

基金项目:国家863计划资助项目(2003AA1Z2110);中国科学院知识创新工程资助项目(KGCX2-S W-504)

作者简介:谢谦(1968—),男,博士生,主要研究领域为系统软件国际化,X W i ndow系统,L inux标准化.

1 编码字符集标准:概念及发展

文字是语言的载体,字符则是计算机处理文字信息的最基本抽象元素,通过使用特定的位组合(即所谓编码)来表示字符,文字信息得以存储和交换。确定文字的字符编码就是要对三元组(G,C,f:C→G)做出定义,其中G代表字符集,C代表编码空间,f是C→G上的函数,定义了编码到字符的单值映射。

为了交换信息,字符编码必须进行标准化,即针对特定文字形成在一定范围内公认的三元组定义。在实践中,存在不同类型的标准化,一种是在一个标准中对三元组做出完整规定,另一种是用不同标准对不同部分进行标准化。

字符编码技术和编码字符集标准经过了长期的发展,早期标准主要针对英文环境,最广为人知的是ANS I制定的ASC II。在编码字符集标准发展过程中起重要作用的I SO2022《字符编码结构和扩充技术》最早发布于1973年[2],规定了编码空间的框架结构以及相应的编码扩充机制,为针对其他文字的编码字符集标准发展提供了坚实的基础。

ISO2022之后的大多数正式国家/地区标准均符合该框架,典型例子包括I SO8859系列单字节8位编码字符集标准、1978年日本发布的JI S C6226、1980年中国发布的GB2312、1986年中国台湾标准局发布的CNS-11643、1987年韩国发布的KS C5601等。这一时期制定的编码字符集标准也有不符合I SO2022框架,然而被厂商较多使用而成为事实标准,如中国台湾地区的B I G5、日本的Shift-JI S等。

通用字符集(UCS)编码标准的制定是编码发展历程中另一个转折点,面向多语言应用环境,使用一个编码字符集覆盖世界上主要文字。UCS起源于1984年,第一个被广泛接受的标准版本发布于1991年。UCS由Unicode联盟和I SO/I EC JTC1/S C2W/G2两个机构进行标准化,二者协调工作保证标准的一致性。

2 IS O2022

ISO2022规定了8位和7位编码的总体结构,定义了统一的编码元素,使得符合标准的编码可以在8位和7位形式之间自由转换;利用标准提供的各项技术,可以扩充基本编码空间的表示能力。I SO2022使信息处理系统能够采用统一的编码处理方法,保证信息交换过程中使用一致的字符集,减少互操作系统之间产生冲突的机会。

2.1 IS O2022要点

ISO2022的编码扩充技术非常灵活,要点包括抽象的编码元素规定、实际编码空间结构表示、在编码中使用特定编码字符集的方法、对特定编码方案定制的方法。

编码元素提供了一个连接实际编码字符集和编码空间的抽象层次,I SO2022规定的编码元素分四类:固定编码字符、编码图形字符集、编码控制字符集和编码单独附加控制功能。编码扩充技术操作的主要对象是编码图形字符集和编码控制字符集,编码图形字符集可容纳字符数有四种限制值:94、96、94n、96n,n>1表示多字节字符集,标准中规定的该类编码元素包括G0、G1、G2和G3;编码控制字符集可容纳32字符,标准中规定的该类编码元素包括C0、C1。

ISO2022使用二维的码表描述其编码空间,用十进制的“列号/行号”表示码点。编码空间中的不同区域及其用途如下:CL(00-01列)用于表示主控制功能集;CR(08-09列,仅适用于8位编码)用于表示辅控制功能集或不使用;GL(02-07列)和GR(10-15列,仅适用于8位编码)用于表示图形字符集。

在数据交换过程中表示一个特定编码字符集需要把该字符集“装入”到编码空间的特定

区域,I SO2022规定该过程由指派和调用两个逻辑上独立的步骤完成,如图1所示。

图1 表示一个编码字符集

指派(Designation)用于建立特定编码字符集与抽象编码元素之间的关联,可以利用I SO 2022定义的转义序列,结合按照I SO2375规定注册的编码字符集特征字符完成。指派一个编码字符集的语义模式为:

把[大小为<94|94n|96|96n>的]<字符集>指派到<编码元素>。

例如:ESC02/0402/0904/01的含义是:把大小为<942>的指派到

调用(I nvoca tion)分配编码空间中的特定区域来表示抽象编码元素,控制字符集不必显式调用,对控制字符集的指派就同时完成了对其的调用。与之相对,图形字符集的编码元素数大于实际编码空间中的区域数,调用过程应该显式进行。图形字符集调用相关的控制功能包括: S I、SO、LS0、LS1、LS2、LS3、SS2、SS3、LS1R、LS2R、LS3R。

实际系统中既无必要也不可能实现I SO2022的全部功能,为此要对功能进行裁剪定制以适应环境需求。I SO2022中定义的一些实现级别可看作功能定制的例子,一些其他标准机构制定的派生标准也可视作ISO2022的定制版本。信息交换双方须在数据处理和交互之前就定制情况达成一致,作为可用声明手段之一,I SO2022提供了ACS(Announce C ode Str ucture)转义序列,从这个意义上讲,I SO2022是自洽的。

2.2 IS O2022相关标准

有两类与I SO2022相关的标准:一类是在其框架内制定的编码字符集标准,特征是编码空间符合I SO2022编码元素要求,如GB2312标准中使用94×94表格为字符分配码位;另一类是编码方案标准,选用I SO2022的部分功能,结合具体编码字符集,形成针对特定应用环境、易于实现的编码方案,下面给出一些广泛使用的与中文相关的此类标准。

I SO-2022-CN

为在Inter net中有效地交换中文信息,RFC1922《Interne t信息用中文字符编码》中规定了几种中文字符编码方案[3],其中使用最广的是适用于7位环境的I SO-2022-CN。

ISO-2022-CN使用G0、G1、G2,G0固定指派为ASC II,G1可以通过转义序列指派为GB 2312-80或CNS11643-1992平面1,G2可以通过转义序列指派为CNS11643-1992平面2,使用控制功能SI、SO和SS2。

EUC系列:E UC-CN和EUC-T W

使用转义序列指派不同字符集的方法作为内码方案效率太低,1991年开始,由OSF、U I等Un i x厂商联盟基于I SO2022技术提出了E UC(Ex t e nd Unix Code)标准作为Unix系统上的编码方案[4],结合不同国家、地区的编码字符集标准,形成了EUC-CN、EUC-T W、EUC-JP、EUC-KR等一系列标准。

EUC-CN针对中国大陆地区设计,是EUC标准中最简单的情况,仅使用G0、G1,并分别固定移位到GL、GR,G0、G1分别指派为GB1988和GB2312-80定义的字符集。

EUC-T W针对中国台湾地区设计[5],使用G0、G1、G2,G2的使用方法是增加一个字符集识别字节包容了多个编码字符集。G0、G1分别指派为CNS-5205和C NS11643-1992平面1定义的字符集,G2指派为C NS11643-1992平面1~7定义的字符集,G0、G1分别固定移位到

GL、GR,使用单移功能SS2调用G2。

Co m pound Tex t

复合文本编码(Co m pound Tex t Encoding)是X Conso rti u m根据I SO2022制定的一个多字符集数据交换格式标准[6],主要被I CCC M(I n ter-C lient Co mm unication ConventionsM anual)引用[7],以便在国际化的X客户程序之间交换多语言文本信息。

复合文本使用的编码元素包括C0、C1、G0和G1,C0、C1固定指派,G0、G1可以动态指派, G0初始指派为ASC II字符集,G1初始指派为I SO8859-1的右半部;G0、G1分别固定移位到GL、GR,不使用移位控制功能。

2.3 IS O2022的贡献和问题

ISO2022是字符编码领域设计最为精巧复杂的编码机制,极大地促进了各种国家/地区编码字符集标准的发展,提供了字符集的标识和切换机制以实现多语言环境下的编码扩充,使得不同语言文字语境下的信息交换成为可能。以Unix为代表的开放系统在实现中广泛应用了众多I SO2022的派生方案,曾一度代表了系统软件国际化的前沿水平。

尽管I SO2022的主要目标是要服务于多语言环境,但在实施过程中暴露出了一些难以解决的问题,包括:实现开销可观,字符集的选择依赖于环境,需要上层能识别相应字符集等。实践说明以多个独立编码字符集为基础进行动态切换的多语言支持方案无法达到预期目标,问题的关键是字符编码只有在一致语境中才能正确解释,包容世界上所有文字的单一编码字符集才是合理的方案,通用字符集UCS(Universal Characte r Se t)因此应运而生。

3 UCS:IS O10646和Un icode

UCS由I SO10646定义,由于Unicode在字汇选择、字符命名、码位分配方面保证一致,因而两个标准在编码字符集层次上完全等同,只是Unicode在此基础上增加了重要的实现算法、字符属性以及其他语义信息方面的规定。另外两者在符合性要求方面有所不同,I SO10646根据使用组合字符的程度规定了三个实现级别,并规定字汇子集标识供实现声明所支持的字汇; Unicode则要求符合实现必须能够处理所有字符,但并不要求能够“解释”任何一部分特定字汇。

ISO10646规定了四个八位位组(分别表示组、平面、行、字位)构成的编码空间[8],包括128个组,每个组包括256个平面,每个平面包括256行,每行有256字位,全部编码空间的大小为231,其中0平面中码位被分配给了各种文字的最常用字符,称为基本多文种平面B MP; Un icode把使用的编码空间明确限于0~10FFFF16(即仅限于前17个平面)以保证各种UCS转换格式之间的一致,这曾经是两个标准之间的分歧,但新版本I SO10646以注释形式明确说明了不打算使用前17个平面以外的编码空间,从而保证了两个标准编码范围的一致性。

每个收录字符都分配了唯一的码位,在实现时需要使用某种编码表示,标准中规定的编码方式有UCS-4、UCS-2、UTF-32、UTF-16和UTF-8。其中UCS-4和UCS-2分别是ISO10646规定的肆八位正则形式和双八位B M P形式;在实际编码空间限于前17个平面情况下,可以认为UTF-32等同于UCS-4;UTF-16相对于UCS-2增加了“替代对”机制来表示B MP之外的前16个平面;UTF-8以8位的字节作为编码基本单位,并保证了0~7F16范围内字符与ASC II一致,最大限度地保证对以前系统环境的兼容。

4 编码分类方法

面对庞杂纷乱的编码字符集标准,无论是要进一步发展完善标准,还是在实际系统中实

现,都需要理顺不同标准间的内在联系,为此应对标准进行一定的归类分析。

分类可以从不同角度出发,一些常见的分类基于直观的标准,例如从编码实现形态上划分有单字节字符集、双字节字符集、多字节字符集;根据字符集规模划分小字符集、大字符集。这些直观分类方法无助于发现编码字符集标准之间的内在联系。

Lunde提出了的一种编码分类方法,并被A t k i n所引用[9]。这种分类方法从实现角度把编码方法分为以下三类:

等宽(fi x ed w idt h):所有字符编码长度相同;

模态(m oda l):有显式的字符集切换,一般分两阶段使用,先使用转义序列或控制字符切换字符集,然后才是处理字符的实际编码;

非模态(non-m oda l):通过互不交迭的编码范围分辩不同字符集、不同编码长度。

这种分类方法揭示了编码相关的部分深层次问题,也切实反映了实现方法的特点,但缺乏一致的分类依据,为把各种编码字符集及编码方案纳入一个分类框架而强行划分,把字符集编码标准与实现方法混在一起,模糊了一些编码字符集的根本性区别。

编码字符集标准及其实现方法经过了长时间的发展,不同标准化机构、不同时期的设计思想差异巨大,标准的复杂性和实现方法的隐蔽性决定了试图用某种“神奇”分类方法来直观揭示其间关系是不现实的。本文把编码字符集的分类和编码实现方法的分类作为不同的语境,在每个语境中按照统一原则划分,力图给出一个清晰、完整的分类图象。

4.1 编码字符集标准分类

如前所述,编码字符集的确定实际是定义三元组(G,C,f:C→G),三者之中唯一适合用作分类依据的是编码空间C的确定过程,反映了编码字符集的设计出发点和适用范围。从这个角度出发,可以把编码字符集分为以下三类:

①独立:此类编码字符集的编码空间独立,从设计上不考虑与其他编码字符集混合使用,典型的例子是ASC II和Unicode。

②结合特定字符集:此类编码字符集从设计之初就打算与某个特定的独立编码字符集(一般是ASC II)一起使用,因而会在一个较大的编码空间中避开该独立编码字符集的编码空间,使用其余部分作为自己的编码空间,典型的例子是BI G5和GBK。

③符合通用框架:此类编码字符集不是要与某一个编码字符集结合,而是希望能和所有同类编码字符集共同使用。实际真正被普遍接受的这种通用框架只有I SO2022,符合的编码字符集使用大小为<94|94n|96|96n>的表作为自己的编码空间,前面已经给出了很多例子。此类编码字符集的另一特点是实现时必须结合某个符合框架要求的编码方案,即编码字符集标准和实现之间必须有另一个标准过渡,这有别于前两类编码字符集标准的情况。

4.2 编码实现方法分类

对编码实现方法的考量限于系统一级,实际系统中的不同部件(如操作系统内核、基本函数库、图形系统)、不同使用情境下(信息内部保存、信息交换)往往会使用不同的编码实现方法,所以下面的分类不是要把某一系统整个划入特定类别。

①单字符集:限于一个特定的编码字符集,除此之外不支持其他字符集。这种实现所支持的就是前面提到的独立编码字符集,多是Unicode。所有基于Unicode的系统的根本特征是支持单一字符集,采用不同的编码方式(UTF-8、UTF-16或UTF-32)仅是细节差别。这种实现方法不仅适用于信息内部保存,也适用于信息交换。

②固定多字符集:特点是支持固定的若干个编码字符集,不提供动态切换字符集的方法,

靠字符的编码范围判别属于哪个字符集。前述第2、3类编码字符集都可以使用这种方法实现,但对第2类编码字符集而言,只能实现双字符集并存;对第3类编码字符集,通过结合某个编码方案标准,可能同时支持较多的字符集,典型是EUC系列。这种方法实现效率高,主要用于信息内部保存,即所谓内码。在正确界定字符边界前提下,可以对信息进行随机访问。

③动态多字符集:特点是支持若干个编码字符集,用统一的方法在处理过程中动态切换字符集,前述第3类编码字符集可以使用这种方法实现,典型例子是I SO-2022系列或者复合文本,通过转义序列指派字符集。这种方法主要用于信息交换,因为依赖于当前正在调用的字符集,数据必须以流的形式被顺序处理,以便正确记录状态。

这里提出的编码实现方法分类与Lunde分类方法有近似的对应关系:固定多字符集对应非模态,动态多字符集对应模态,然而单字符集和等宽包含的范围不同。相对而言,本文提出的分类方法在下列方面有本质性的提高:

本文的分类方法的划分依据在层次上保持一致,划分结果整洁而清晰,与Lunde方法的近似对应也非偶然,内在特征的一致必然会带来外部特征的相似;两种不同的分类方法有一些不同的划分结果,本文的划分更完备,且更合理:对于变长的UTF-8、UTF-16,本文将其与UCS-4/ UTF-32一样归入单字符集类,而在Lunde分类方法中,此类编码没有合适的位置;既没有把编码字符集标准与实现方法混淆,又没有割裂二者之间的内在联系。

5 汉字编码国标

一系列存在相互关联的国标定义了汉字编码字符集及相关标准,由于编码字符集固有的复杂性,对这些标准存在许多误解,有必要对其进行简单的总结和分析。

首先是两个等同采用国际标准的国标,确定了两个迥然不同的编码体系: GB2311《信息处理信息交换用七位编码字符集》等同采用I SO2022[10]

GB13000《信息技术通用多八位编码字符集(UCS)》等同采用I SO10646[11]国标汉字编码字符集标准包括:

GB2312-80《信息交换用汉字编码字符集基本集》[12]

GB/T7589-87《信息交换用汉字编码字符集第二辅助集》[13]

GB/T7590-87《信息交换用汉字编码字符集第四辅助集》[14]

GB/T8565.2-88《信息处理文本通信用编码字符集第二部分图形字符集》[15]

GB/T12345-90《信息交换用汉字编码字符集辅助集》[16]

GB/T13131-91《信息交换用汉字编码字符集第三辅助集》

GB/T13132-91《信息交换用汉字编码字符集第五辅助集》

GB/T16500-1998《信息交换用汉字编码字符集第七辅助集》

GB18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》[17]上述标准除GB18030之外,都属于ISO2022体系框架内的编码字符集标准。GB2312是常用简体汉字字符集,GB/T12345基本是其对应的繁体汉字版本;类似还有GB/T13131是GB/T7589的繁体汉字版本,GB/T13132是GB/T7590的繁体汉字版本;GB/T16500是繁体字版本,没有对应的简体字版本;GB/T8565.2中为GB2312补充了一部分汉字,分配到GB 2312未使用的码区,所以要结合GB2312使用。GB/T7589和GB/T7590定义的编码字符集中包含类推简化字,因而实用性不高。

作为I SO2022体系框架内的编码字符集,为使用ISO2022的编码扩充技术,应按照I SO

2375规定的程序在I SO授权机构注册,而上述国标相关的编码字符集真正注册的只有两个: GB2312-80,和GB2312-80+GB/T8565.2-88构成的I SO-I R-165。从实现方案看,RFC 1922规定的适用于7位编码环境的I SO-2022-CN-EXT试图将GB/T12345、GB/T7589、GB/T7590、GB/T13131、GB/T13132等字符集纳入统一切换机制,然而由于没有注册,实际中不可操作;对于8位编码环境,没有配套的如EUC一类的编码方案,依然无法实施。所以在上述几个I SO2022体系框架内的编码字符集标准中,只有GB2312-80和GB/T8565.2-88真正得以实现,其他几个编码字符集的最主要作用是成为ISO10646中统一汉字的字源。

在实际系统中,GB2312定义的字符集远远不能满足用户需求,上述辅助字符集又无法实现,所以并非正式国标的GBK《汉字内码扩展规范》作为扩充汉字字符集被广泛使用。GB K利用典型GB2312-80内码实现方案中未使用的编码空间,收录了ISO10646.1-1993中的所有汉字以满足日常使用要求。

一种常见的误导性说法是GB K向下兼容GB2312,模糊了GBK和GB2312作为编码字符集标准的根本差别。对编码字符集而言,兼容的准确语义定义如下:

若A(G A,C A,f A:C A→G A)和B(G B,C B,f B:C B→G B)是两个编码字符集,A兼容B当且仅当:G B G A,C B C A,f B f A。

注意GB2312属于前述分类方法中的第三类,其编码空间没有完全定义;而GB K属于第二类,这两者之间并不存在进行上述比较的可能,存在包含关系的只有字符集G。实际上GB K 兼容的是在8位环境中的典型GB2312内码实现方案,即把双字节的GB2312移位到GR 区域。

作为对GB K方案的正式确认和进一步扩充,2000年发布了GB18030-2000,收录了包括I SO10646.1-2000汉字扩充A区在内的更多字符。GB18030与Unicode的紧密关联,标准规定了自身编码空间与Un icode全部编码空间之间的完整映射关系,以后加入到Unicode的字汇,GB18030编码空间中都有唯一对应的码位,因而甚至可以被看作UCS的另一种编码转换形式,在业界有UTF-GB18030的提法。

6 结语

字符编码标准领域从来不乏争议,对同一文字出现了大量互不兼容的标准,虽然UCS代表了发展方向,然而大量的系统软件遗产决定了多种编码并存的局面会长期存在。文字处理在深层次不可避免会与字符编码打交道,本文力图为庞杂纷乱的编码字符集标准勾画出一个全景图像,找出不同标准之间的内在关联,为文字信息处理工作提供一个基础参照。

参 考 文 献:

[1] U nicode C onso rtiu m,The.T he U nicode Standard V ersi on4.0[S].A ddison-W e sley,Reading,MA.2003.

[2] EC M A-356t h Ed ition.Character Code S tructure and Ex tension T echniques[S].

[3] Zhu,HF.et a.l Chinese Charac ter Encoding for In t e rnetM essage s[S].RFC1922,M arch1996.

[4] Lunde,K en.CJ KV Infor m a tion P rocessing[M].Sebastopo l:O'R eilly&A ssoc iates,1999.

[5] 陈季雷,杨裕衡,林守铿.洞悉UN I X中文系统篇[M].台北:和硕科技文化有限公司,1994.

[6] Sche ifl e r,Rober.t Co m pound T ex t Encod i ng,V ersion1.1[S].X Consorti u m S tandard,X V e rsion11,Re-

lease6.4.1989.

[7] Dav i d R osentha l and S t uartW.M a rks.Inter-C lient Communicati on Conventi onsM anual,V ersion2.0[S].X

Conso rtiu m Standard,X V e rsion11,Re l ea se6.4.

[8] ISO/I EC10646:2003.In f o r m ation t echno l ogy--Unive rsa lM ulti p l e-O ctet Coded Charac t e r Se t(UCS)-A r-

chitect u re and Basic M ultili ngua l P lane Supple m entary P lane s[S].

[9] A t k i n,Steven.A F ram e w ork fo rM u ltilingual Info r m ation P rocessing[D].D octor's disse rtati on F lorida Instit u te

o f T echno logy.D ece mbe r,2001.

[10] GB/T2311-90.信息处理七位和八位编码字符集代码扩充技术[S].

[11] GB13000.1-93.信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面

[S].

[12] GB2312-80.信息交换用汉字编码字符集 基本集[S].

[13] GB/T7589-87.信息交换用汉字编码字符集 第二辅助集[S].

[14] GB/T7590-87.信息交换用汉字编码字符集 第四辅助集[S].

[15] GB/T8565.2-88.信息处理 文本通信用编码字符集 第二部分 图形字符集[S].

[16] GB/T12345-90.信息交换用汉字编码字符集 辅助集[S].

[17] GB18030-2000.信息技术 信息交换用汉字编码字符集 基本集的扩充[S].

(上接第43页)

参 考 文 献:

[1] 罗盛芬,孙茂松.基于字串内部结合紧密度的汉语自动抽词实验研究[J].中文信息学报,2003,17(3):

9-14.

[2] 李文花,郑家恒.基于构词法的网络新词自动识别初探[J].山西大学学报,2002,25(2):115-119.

[3] 邹纲,刘洋,刘群,等.面向Interne t的中文新词语检测[J].中文信息学报,2004,18(6):1-9.

[4] K eh-Jiann Chen,W ei-Y un M a.U nknown W ord Ex trac tion for Chine se docu m en ts[A].P roceed i ng s o f CO L-

I NG[C].T ai wan:A ssocia tion for Co m pu t a tiona l L inguistics,2002,169-175.

[5] R.Sproat,C.Shi h.A statistical me t hod for fi ndi ng wo rd boundaries i n Chinese t ex t[J].Computer P rocessing

o f Chinese and O riental Languages,1990,V o.l4,N o.4,336-351.

[6] X ianping G e,W anda P ra tt,Padhraic Smy t h.D iscovering Ch i nese W ords fro m Unsegmented Tex t[A].SIG IR

[C].B erkeley:ACM,1999,271-272.

[7] SunM ao s ong,Shen D ay ang,Ben j a m i n K T sou.Chi nese W ord Segmenta tion w ithou tU sing Lexicon and H and-

cra fted T ra i n i ng D ata[A].P roceeding s o f the36th annua lm ee ti ng on A ssocia tion for Computati onal L inguis-ti c s[C].M ontrea l:A ssoc iati on fo r Computati ona l L i nguistics,1998,1265-1271.

[8] 金翔宇,孙正兴,张福炎.一种中文文档的非受限无词典抽词方法[J].中文信息学报,2001,15(6):

33-39.

[9] 韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,2001,15(2):

23-30.

[10] 韩洁,周勇,刘少辉,等.基于WWW的未登录词识别研究[J].计算机科学,2002,29(12):155-156.

[11] 刘月华,潘文娱,等.实用现代汉语语法[M].北京:外语教学与研究出版社,1983.

[12] J Y N ie,M L H annan,W Jin.U nknown W o rd De tecti on and Segmenta tion of Ch i nese using S tatistical and

heuristic K now ledge[J].Communicati ons o f CO LIPS,1995,V o.l5,47-57.

[13] 王还,常宝儒.现代汉语频率词典[M].北京:北京语言学院出版社,1986.

[14] 李荣陆.中文文本分类语料[DB],htt p://https://www.wendangku.net/doc/425897089.html,/docs/dow nl o ad.php doc_id=281.

信息分类与编码

上海亚东国际货运有限公司(企业标准) 信息分类与编码 (草案) 日期:2011年10月

目录 1、前言 2、范围 3、规范性应用文件 4、术语和定义 5、分类 6、编码 7、分类对象表示 8、分类编码表

1、前言 本标准由亚东总部办公会议提出,归口到亚东总部信息管理部。 标准起草部门:总经办、办公室、人力资源部、信息管理部。 标准起草人:劳渝声、张正良、孙海龙、沈锡鹤 2、范围 本标准规定了亚东物流信息的分类、编码及分类代码。 本标准适用于总部各级管理部门、分子公司以及相关单位对于物流信息的管理及应用。 3、规范性引用文件 下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的国标文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,亚东总部鼓励各部门及子分公司根据本标准使用这些国标文件的最新版本。凡是不注日期的引用国标文件,其最新版本适用于本标准。 GB/T 10113-2003 分类与编码通用术语 GB/T 23831-2009 物流信息分类与代码 4、术语和定义 下列术语和定义适用于本标准。 4.1 类 category 具有某种共同属性(或特征)的实物或概念的集合。 【引自GB/T 10113-2003,2.1.1】 4.2 分类 classification 按照选定的属性(或特征)区分分类对象(3.4),将具有某种共同属性(或特征)的分类对象(3.4)集合在一起的过程。 【引自GB/T 10113-2003,2.1.2】 4.3 信息分类 information classifying

把具有某种共同属性或特征的信息归并在一起,把具有不同属性或特征的信息区别开来的过程。 【引自GB/T 10113-2003,2.1.3】 4.4 分类对象 objects of classification 被分类(3.2)的事物或概念。 【引自GB/T 10113-2003,2.1.4】 4.5 线分类法 method of linear classification 将分类对象(3.4)按选定的若干属性(或特征),逐次地分为若干层级,每个层级又分为若干类目。同一分支的同层级类目之间构成并列关系,不同层级类目之间构成隶属关系。 【引自GB/T 10113-2003,2.1.5】 4.6 层次码 layer code 能反映编码对象为隶属关系的代码。 【引自GB/T 10113-2003,2.2.22】 5、分类 5.1 原则 本标准按物流信息的业务管理及应用所反映的属性分类,遵循以下原则:5.1.1科学性 选择物流信息最稳定本质属性或特征作为分类的基础和依据。 5.1.2系统性 将选定的物流信息的属性或特征按一定的排列顺序予以系统化,形成一个科学合理的分类体系。 5.1.3可扩延性 设置收容类目,并且在建立物流信息分类体系和代码编码中充分考虑今后的信息分类与代码的扩充、延拓和细化。 5.1.4兼容性 与相关标准的相关内容相兼容。

数据编码方式介绍

1.Base64 这里讨论的编码主要的目的是将不可显示的二进制数组转变为可显示的字符串,包括其逆运算。通过特定的协议传输数据,或者加密解密的时候都会用到类似的方法。在这类运算中用的比较多的是Base64,比如MIME中,DotNET中更是直接提供了Base64 Encode和Decode的方法,相当方便。但是Base64通常由“a-z”、“A-Z”、0-9以及“+”和“=”这些符号组成,当中包含了很多混淆的字符,例如“1”、“I”和“l”,“0”和“O”或者“2”和“Z”,看起来总是不爽。特别是当作为序列号编码时,是不应该包含容易混淆的字母,所以有另一种编码形式叫做Base24,用过MS产品的兄弟们一定非常熟悉。但是Base24在实现上还要多绕一个弯,先放一放,我们在下面说Base32,能够基本满足要求的,又非常直观的编码方式。Base32的原理和Base64一模一样,所以先看一下Base64编码是怎么一回事。 Base64顾名思义就是用64个可显示字符表示所有的ASC字符,64也就是6Bits,而ASC字符一共有256个,也就是8Bits,很简单了,取一下最小公约数,24位,言下之意就是用4个Base64的字符来表示3个ASC字符。即在编码时,3个一组ASC字符,产生4个Base64字符,解码时4个一组,还原3个ASC字符。根据这个原理Base64编码之后的字符串应该比原先增加1/3的长度。 这里所谓的编码就是一次取6Bits,换算出来的值作为索引号,利用这个索引数,到预先定义的长度为64的字符数组中取相应的字符替换即可;解码就是逆运算,根据字符取在预定义数组中的索引值,然后按8Bits一组还原ASC字符。 Base32和Base64相比只有一个区别就是,用32个字符表示256个ASC字符,也就是说5个ASC字符一组可以生成8个Base32字符,反之亦然。 2.Base32 2.1.Base32数据编码简介 Base32数据编码机制,主要用来把二进制数据编码成可见的字符串,其编码规则是:任意给定一个二进制数据,以5个位(bit)为一组进行切分(base64以6个位(bit)为一组),对切分而成的每个组进行编码得到1个可见字符。Base32编码表字符集中的字符总数为25=32个,这也是Base32名字的由来。以下是我在网上找的一个标准的Base32编码表,如表1所示。

中国石化信息分类编码标准-设备分类标准与编码

中国石化信息分类编码标准 Q/SH005-01-2006 设备分类标准与编码 (2006年试用版) 不作为正式发布 先由相关企业试用 2006年- 8月制订 2006年- 10月试用

目录 Q/SH005-01-2006 (1) 前言 (3) 设备分类标准及编码说明 (4) 一、编制目的 (4) 二、编制依据 (4) 三、适用范围 (4) 四、编码对象 (4) 五、术语定义 (4) 六、设备分类标准制定原则 (5) 七、设备分类标准说明 (5) 八、编码规则 (5) (一)编码规则 (5) (二)代码表结构 (6) 九、油品销售企业《设备分类标准》填报说明 (6)

前言 本标准内容包括:中国石化设备分类与编码 本标准由中国石化信息标准化领导小组提出并归口管理 本标准起草单位:中国石化股份有限公司生产经营管理部 中国石化股份有限公司信息部 石化盈科信息技术有限责任公司 本标准主要起草人: 本标准负责单位:中国石化股份有限公司设备编码组 本标准由中国石化信息标准化领导小组办公室组织专家审核

设备分类标准与编码说明 一、编制目的 本标准编制的目的是为了统一规范设备分类,统一编码,满足石化总部及上、中、下游设备管理和ERP集中建设的需要。 二、编制依据 1、中国石化23大类《设备分类与编码》(2002年版) 2、《石油天然气行业设备分类与编码》(第四版) 3、油品销售EAM分类 三、适用范围 “设备分类标准及编码”适用于中国石化股份公司本部及所属单位。 四、编码对象 设备分类编码对象为28大类1037小类的设备分类。 五、术语定义 1、工业管道系指企业、事业单位所属的用于输送工艺介质的工艺管道、公用工程管道及其他辅助管道。 2、公用管道系指城市或乡镇范围内的用于公用事业或民用的燃气管道和热力管道。 3、长输管道系指产地、储存库、使用单位间的用于输送商品介质的管道。

【编号规则】工程信息编码标准

QB ****公司企业标准 信息分类和编码 第3分册工程信息分类和编码 (初稿) 20XX-XX-XX 发布 20XX -XX -XX 发行 *****有限责任公司 发 布 ICS XXX 备案号XXX

目次 前言 (3) 引言 (4) 1范围 (5) 2规范性引用文件 (5) 3术语和定义 (5) 4分类原则和方法 (6) 4.1基本原则 (6) 4.2分类对象的层面划分 (6) 4.3工程信息分类 (7) 4.4工程信息整体框架 (8) 5编码方法 (9) 5.1基本原则 (9) 5.2码值 (9) 5.3代码组结构和层次 (10) 5.3.1交互定位码 (10) 5.3.2项目编码 (10) 5.3.3管理属性编码 (11) 5.3.4设计属性编码 (11) 5.3.5合同属性编码 (12) 5.3.6档案属性编码 (12) 5.3.7采购、财务、招标信息属性编码 (13) 5.3.8非项目信息编码 (13) 6分类与代码表 (14) 6.1非项目信息分类标识码(30301) (14) 6.2省电网公司及直属单位编码(30302) (14) 6.3工程项目建设管理单位代码(30303) (15) 6.4项目属性代码(30304) (18) 6.5综合指标(30305) (19) 6.6立项时间(30306) (20) 6.7批次项目标识码(30307) (21) 6.8信息属性码分类(30308) (21) 6.9项目阶段代码((30309) (22) 6.10工作分解代码(30310) (22) 6.11信息创建部门代码(30311) (23) 6.12设计资料分类代码(30314) (24) 6.13设计阶段代码(30315) (24) 6.14类目代码(30316) (25)

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、...

ASCII ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 只支持ASCII码的系统会忽略每个字节的最高位,只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码,为了传输中文邮件必须使用BASE64或者其他编码方式。 GB2312 GB2312是基于区位码设计的,区位码把编码表分为94个区,每个区对应94个位,每个字符的区号和位号组合起来就是该汉字的区位码。区位码一般用10进制数来表示,如1601就表示16区1位,对应的字符是“啊”。在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。 区位码中01-09区是符号、数字区,16-87区是汉字区,10-15和88-94是未定义的空白区。它将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。一级汉字是按照拼音排序的,这个就可以得到某个拼音在一级汉字区位中的范围,很多根据汉字可以得到拼音的程序就是根据这个原理编写的。 GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符,未收录繁体中文汉字和一些生僻字。可以用繁体汉字测试某些系统是不是只支持GB2312编码。 GB2312的编码范围是0xA1A1-0x7E7E,去掉未定义的区域之后可以理解为实际编码范围是0xA1A1-0xF7FE。 EUC-CN可以理解为GB2312的别名,和GB2312完全相同。 区位码更应该认为是字符集的定义,定义了所收录的字符和字符位置,而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。HZ和ISO- 2022-CN是对应区位码字符集的另外两种编码,都是用7位编码空间来支持汉字。区位码和GB2312编码的关系有点像Unicode和UTF-8。 GBK GBK编码是GB2312编码的超集,向下完全兼容GB2312,同时GBK收录了Unicode基本多文种平面中的所有CJK汉字。同GB2312一样,GBK也支持希腊字母、日文假名字母、俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。 GBK的整体编码范围是为0x8140-0xFEFE,不包括低字节是0×7F的组合。高字节范围是0×81-0xFE,低字节范围是0x40-7E和0x80-0xFE。

字符编码方式介绍及编码方式测试

第一部分编码方式介绍 一、编码: 美国标准信息交换标准码( , ) 在计算机内部,所有地信息最终都表示为一个二进制地字符串.每一个二进制位()有和两种状态.一个字节()共由八个二进制位来组成,共有种状态,从到. 阿拉伯数字、英文字母、标点符号等这些字符,怎么定义才能让计算机识别呢?因为计算机只识别二进制位和,所以以上这些字符就必须与二进制位(和)建立关系,才能让计算机识别. 年代初,计算机界制定了一套统一地字符编码,来表示字符与二进制位之间地关系.这种统一地字符编码就叫做编码.码一共规定了个字符地编码,比如空格是(二进制),大写地字母是(二进制).这个符号(包括个不能打印出来地控制符号),只占用了一个字节地后面位,最前面地位统一规定为. 在英语国家,个编码足以表达所有字符,但其它非英语国家,字符不是由英文字符组成,这样就需要增加编码以表达这些字符,对于超过个字符地编码被称为非编码.比如:在中国,我们用简体中文,字符编码方式为.个人收集整理勿做商业用途 二、编码: 看到上面地介绍后,我们了解了最早编码是码.它只用个二进制位来表示,由于那个时期生产地大多数计算机使用位大小地字节,因此用户不仅可以存放所有可能地字符,而且有整整一位空余下来.如果你技艺高超,可以将该位用做自己离奇地目地:中那个发暗地灯泡实际上设置这个高位,以指示一个单词中地最后一个字母,同时这也宣示了只能用于英语文本. 由于字节有多达位地空间,因此许多人在想:“呀!我们可以把之间地编码用做个人地应用目地.”问题在于,同时产生这种想法地人相当多,而且在之间地各个位置上应该存放什么这一问题上,真是仁者见仁智者见智.事实上,只要人们开始在美国以外地地方购买计算机,那么各种各样地不同字符集都会进入规划设计行列,并且各人都会根据自己地需要使用高位地个字符.如此一来,甚至在同语种地文档之间就不容易实现互换. 可被扩展,最优秀地扩展方案是,通常称之为.包括了足够地附加字符集来写基本地西欧语言. 最后,这个人参与地终于以标准地形式形成文件.在标准中,每个人都认同如何使用低端地个编码,这与相当一致.不过,根据所在国籍地不同,处理编码以上地字符有许多不同地方式.这些不同地系统称为代码页. 同时,甚至更为令人头疼地事情正在逐步上演,亚洲国家地字符表有成千上万个字符,这样地字符表是用位二进制无法表示地.该问题地解决通常有赖于称为(,双字节字符集)地繁杂字符系统. 不过,仍然需要指出一点,多数人还是姑且认为一个字节就是一个字符,以及一个字符就是个二进制位,并且只要确保不将字符串从一台计算机移植到另一台计算机,或者说一种以上地语言,那么这几乎总是可以凑合.当然,只要一进入,从一台计算机向另一台计算机移植字符串就成为家常便饭了,而各种复杂状况也随之呈现出来.令人欣慰地是,随即问世了.个人收集整理勿做商业用途 字符集(简称为),国际标准组织于年月成立工作组,针对各国文字、符号进行统一性编码.年美国跨国公司成立,并于年月与达成协议,采用同一编码字集.目前是采用位编码体系,其字符集内容与地()相同.于年月通过(),目前版本于公布,内容包含符号个,汉字个,韩文拼音个,造字区个,保留个,共计个.编码后地大小是一样地.例如一个英文字母"" 和一个汉字"好",编码后都是占用地空间大小是一样地,都是两个字节!个人收集整理勿做商业用途 可以用来表示所有语言地字符,而且是定长双字节(也有四字节地)编码,包括英文字

中华人民共和国学科分类与代码国家标准(GBT13745-2009)

目次 目次............................................................. 错误!未定义书签。前言............................................................. 错误!未定义书签。引言............................................................. 错误!未定义书签。1范围............................................................... 错误!未定义书签。 2 术语和定义......................................................... 错误!未定义书签。 3 学科分类原则....................................................... 错误!未定义书签。 4 学科分类依据....................................................... 错误!未定义书签。 5 学科分类代码体系的说明............................................. 错误!未定义书签。 6 编码方法........................................................... 错误!未定义书签。7学科分类代码表..................................................... 错误!未定义书签。110 数学............................................................. 错误!未定义书签。120 信息科学与系统科学............................................... 错误!未定义书签。130 力学............................................................. 错误!未定义书签。140 物理学........................................................... 错误!未定义书签。150 化学............................................................. 错误!未定义书签。160 天文学........................................................... 错误!未定义书签。170 地球科学......................................................... 错误!未定义书签。180 生物学........................................................... 错误!未定义书签。190 心理学........................................................... 错误!未定义书签。210 农学............................................................. 错误!未定义书签。220 林学............................................................. 错误!未定义书签。230 畜牧、兽医科学................................................... 错误!未定义书签。240 水产学........................................................... 错误!未定义书签。310 基础医学......................................................... 错误!未定义书签。320 临床医学......................................................... 错误!未定义书签。330 预防医学与公共卫生学............................................. 错误!未定义书签。340 军事医学与特种医学............................................... 错误!未定义书签。350 药学............................................................. 错误!未定义书签。360 中医学与中药学................................................... 错误!未定义书签。410 工程与技术科学基础学科........................................... 错误!未定义书签。413 信息与系统科学相关工程与技术..................................... 错误!未定义书签。416 自然科学相关工程与技术........................................... 错误!未定义书签。420 测绘科学技术..................................................... 错误!未定义书签。430 材料科学......................................................... 错误!未定义书签。440 矿山工程技术..................................................... 错误!未定义书签。450 冶金工程技术..................................................... 错误!未定义书签。460 机械工程......................................................... 错误!未定义书签。470 动力与电气工程................................................... 错误!未定义书签。480 能源科学技术..................................................... 错误!未定义书签。490 核科学技术....................................................... 错误!未定义书签。

信息分类编码

四、分类编码 (1)国民经济行业 代码行业分类 农林牧渔业 0101 农业 0102 林业 0103 畜牧业 0104 渔业 0105 农、林、牧、渔服务业 采矿业 0206 煤炭开采和洗选业 0207 石油和天然气开采业 0208 黑色金属矿采选业 0209 有色金属矿采选业 0210 非金属矿采选业 0211 其他采矿业 制造业 0313 农副食品加工业 0314 食品制造业 0315 饮料制造业 0316 烟草制品业 0317 纺织业 0318 纺织服装、鞋、帽制造业 0319 皮革、毛皮、羽毛(绒)及其制品业 0320 木材加工及木、竹、藤、棕、草制品业0321 家具制造业 0322 造纸及纸制品业 0323 印刷业和记录媒介的复制 0324 文教体育用品制造业 0325 石油加工及煤焦及核燃料加工业 0326 化学原料及化学制品制造业 0327 医药制造业 0328 化学纤维制造业 0329 橡胶制品业 0330 塑料制品业 0331 非金属矿物制品业 0332 黑色金属冶炼及压延加工业 0333 有色金属冶炼及压延加工业 0334 金属制品业 0335 通用设备制造业 0336 专用设备制造业 0337 交通运输设备制造业 0339 电气机械及器材制造业 0340 通信设备、计算机及其他电子设备制造业0341 仪器仪表及文化、办公用机械制造业0342 工艺品及其他制造业 0343 废弃资源和废旧材料回收加工业 电力、煤气及水的生产和供应业 0444 电力、热力的生产和供应业 0445 煤气生产和供应业 0446 水的生产和供应业建筑业 0547 房屋和土木工程建筑业 0548 建筑安装业 0549 建筑装饰业 0550 其他建筑业 交通运输仓储和邮政业 0651 铁路运输业 0652 道路运输业 0653 城市公共交通业 0654 水上运输业 0655 航空运输业 0656 管道运输业 0657 装卸搬运及其他运输服务业0658 仓储业 0659 邮政业 信息传输、计算机服务和软件业0760 电信和其他信息传输服务业0761 计算机服务业 0762 软件业 批发和零售业 0863 批发业 0865 零售业 住宿和餐饮业 0966 住宿业 0967 餐饮业 金融业 1068 银行业 1069 证券业 1070 保险业 1071 其他金融活动 房地产业 1172 房地产业 租赁和商务服务业 1273 租赁业 1274 商务服务业 居民服务和其他服务业 1582 居民服务业 1583 其他服务业 2100 其他行业 (2)企业登记注册类型 代码分类 内资企业 110 国有企业 120 集体企业

信息技术服务分类代码解读

《信息技术服务分类与代码》解读 刘宏 2017-03-09 《信息技术服务分类与代码》标准为信息技术服务分类提供了分类方案,为信息技术服务体系的建立和维护提供了依据。目前公司的业务基本上是按照《信息技术服务分类与代码》进行分类,因此本文介绍了《信息技术服务分类与代码》主要内容。 信息技术服务需求包括纵横两个维度的内容,一是横向的由管理体系、人员、信息资源、技术支撑等组成的信息化体系要素,二是纵向的系统生命周期过程,即系统的概念、开发、生产、使用、支持、退役等六个阶段。 应对需方信息技术服务需求的各项内容,在供方层面产生了八项信息技术服务业务,包括咨询服务、培训服务、数据处理服务、软件开发和部署服务、测试服务、集成服务、IT运维服务和租赁服务。这八种信息技术服务应对需方信息技术服务需求全部要素的同时,也涵盖了系统生命周期过程的全部六个阶段。 运营 图 1 信息技术服务框架图 图1中,八类信息技术服务业务与信息技术服务需求的基本对应关系如下: 1)咨询服务,包括规划、设计、管理咨询、监理、评估认证和技术培训等,应对于 需方信息技术服务需求中的管理体系、人员、信息资源,以及技术支撑中的概念 和开发等阶段。 2)设计与开发服务,包括硬件、软件等设计开发,应对于需方技术支撑需求中的设

计开发阶段。 3)系统集成试试服务,包括基础环境、硬件、软件、安全等集成实施,以及集成实 施管理等,应对于需方技术支撑需求中的集成实施阶段。 4)运行维护服务,包括基础环境、硬件、软件、安全等运行维护服务,以及运行维 护管理等,应对于需方技术支撑需求中的运行维护阶段。 5)数据处理和存储服务,包括数据加工处理、存储等,应对于需方的信息资源需 求。 6)运营服务,包括软件、平台基础设施等运营服务,应对于需方的租用服务需求; 7)数字内容服务,包括数字动漫、游戏设计、地理信息等内容的加工与整合,应对 于需方的数字内容服务需求。 8)呼叫中心服务,包括业务咨询、信息查询、数据查询等信息服务,应对于需方的 信息服务需求; 在《信息技术服务分类与代码》标准编制中对信息技术服务框架的中的信息技术服务分类进行了调整。表1是目前使用的信息技术服务分类。 特别注意的是在2010年前,由于认知上的失误,将“系统运行与维护”定义为“IT服务”,即所谓“大IT服务(覆盖IT全生命周期阶段的服务)”与“小IT服务(覆盖系统运行与维护阶段的服务)之争。基于《信息技术服务分类与代码》标准,目前公司的业务都属于信息技术服务范围内。公司目前个别业务单元名称冠以“IT服务”(其核心业务为“系统平台运行维护”等),在国内进行业务沟通与交流时可能存在一定的误解,需要特别关注。 信息技术服务的分类与代码内容如下: 表1 信息技术服务分类与代码

常用字符集介绍和编码转换原理

常用字符集介绍和编码转换原理 目录 1. GB2312编码介绍 (2) 1.1 基本信息 (2) 1.2 GB标准 (2) 1.3 分区表示 (2) 1.4 字节结构 (2) 2. 通用字符集UCS (3) 2.1 定义 (3) 2.2 概要 (3) 2.3 实现级别 (3) 2.4 与UNICODE的兼容关系 (3) 3. unicode编码介绍 (3) 3.1 基本简介 (4) 3.2 编码实现 (4) 3.2.1 编码方式 (4) 3.2.2 实现方式 (5) 4. UTF-8介绍 (5) 4.1 基本介绍 (5) 4.2 编码原理 (5) 4. 转换原理 (7)

1. GB2312编码介绍 1.1 基本信息 1.2 GB标准 GB2312或GB2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集·基本集》,又称为GB0,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。 GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。 GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。 对于人名、古汉语等方面出现的罕用字,GB2312不能处理,这导致了后来GBK及GB18030汉字字符集的出现。 1.3 分区表示 GB 2312中对所收汉字进行了―分区‖处理,每区含有94个汉字/符号。这种表示方式也称为区位码。 01-09区为特殊符号。 16-55区为一级汉字,按拼音排序。 56-87区为二级汉字,按部首/笔画排序。 10-15区及88-94区则未有编码。 举例来说,―啊‖字是GB2312之中的第一个汉字,它的区位码就是1601。 1.4 字节结构

汽车分类国家标准

道路上行驶的汽车造型和性能特征等千差万别,如何区别这些汽车?一般来讲,根据新的汽车分类国家标准(gb9417-89)就可方便地区分车型。中国汽车划分为8大类: 1.载货汽车:依公路运行时厂定最大总质量(ga)划分为:微型货车(ga≤1.8吨)轻型货车(1.8吨<ga≤6吨)中型货车(6.0吨<ga≤14吨)重型货车(ga>14吨) 2.越野汽车:依越野运行时厂定最大总质量(ga)划分为:轻型越野汽车(ga≤5吨)中型越野汽车(5.0吨<ga≤13吨)重型越野汽车(13<ga≤24吨)超重型越野汽车(ga>24吨) 3.自卸汽车:依公路运行时厂定最大总质量(ga)划分为:轻型自卸汽车(ga≤6吨)中型自卸汽车(6.0吨<ga≤14吨)重型自卸汽车(ga>14吨)矿山自卸汽车; 4.牵引车:半挂牵引车、全挂牵引车; 5.专用汽车:厢式汽车、罐式汽车、起重举升汽车、仓棚式汽车、特种结构式汽车、专用自卸汽车; 6.客车:依车长(l)划分为:微型(l≤3.5米)轻型(3.5米<l≤7米)中型(7米<l≤10米)大型客车(l>10米)和特大型客车;中大型客车又可分为城市、长途、旅游及团体客车,特大型客车指铰接和双层客车;

7.轿车:依发动机排量(v)划分为:微型轿车(v≤1升)普通轿车(1升<v≤1.6升)中级轿车(1.6升<v≤2.5 升)中高级轿车(2.5升<v≤4升)高级轿车(v>4升) 8.半挂车:依公路运行时厂定最大总质量(ga)划分为:轻型半挂车(ga≤7.1吨)中型半挂车(7.1吨<ga≤19.5吨)重型半挂车(19.5<ga≤34吨)超重型半挂车(ga>34吨)本站点车型定义与分类本网站主要收集小型客车, 如各种轿车, 轻型越野汽车, 微型 货车, 微型客车。在中国,根据公安部的车辆分类标准,小型客车的共分为四类, 即:·小轿车、越野车、旅行车、轻型小客车·本站点即主要采用这种分类办法。·本站点还同时收录适宜家庭使用的小型货车(皮卡, pickup), 归类为小货车每辆车属于哪一种车型,请参阅该车的行驶证(不是司机驾驶证)正页第5行均已标明。·小轿车举例:桑塔纳,宝马,奥迪等;夏利、奥拓属于小轿车。切诺基小客车在北京行驶按照小轿车进行管理, 但是这里归类为越野车·越野车包括国产吉普和进口吉普等型号, 以及其它品牌越野车·旅行车举例:松花江、昌河、长安、大发、柳州五菱、天津华利等属于7座以下旅行车·轻型小客车指凯特、海玉、中联等类型的小客车,中华子弹头也属于轻型小客车, 小客车的分类似有难以界定,主观上也归并到旅行车一类·小货车,如小轿车旅行轿车station wagon 小轿车厢式轿车旅行车吉普车jeep等越野汽车越野车厢式货车小货车轻型小货车pickup 小货 车国汽车分类标准中国汽车分类标准(gb9417-89)将汽车分类为8类:

国家标准学科分类与代码表

学科分类与代码 共设5个门类、58个一级学科、573个二级学科、近6000个三级学科。 学科分类代码是基于一定原则对现实科学体系按其内在联系加以归类并以符合逻辑的排列形式表述出来且赋予代码的一种学科。《学科分类与代码》国家标准,是科学发展、教育、科技统计、学科建设等方面工作的一个重要依据。鉴于学科分类在科学发展中所具有的特殊地位,联合国、美国、德国和日本等国际组织与世界发达国家都很重视学科分类体系标准化工作,纷纷制定相应的学科分类与代码标准。 《学科分类与代码》使用说明 中华人民共和国国家标准学科分类与代码表GB/T13745-92。 Classification and code disciplines。 1.主题内容: 本标准规定了学科的分类与代码。 2. 适用范围: 本标准适用于国家宏观管理和科技统计。 本标准的分类对象是学科,不同于专业和行业,不能代替文献、情报、图书分类及学术上的各种观点。 3. 相关术语: 3.1 学科: 学科是相对独立的知识体系。 3.2 学科群: 学科群是具有某一共同属性的一组学科。每个学科群包含了若干个分支学科。 4. 分类原则: 4.1 科学性原则: 根据学科研究对象的客观的、本质的属性和主要特征及其之间的相关联系,划分不同的从属关系和并列次序,组成一个有序的学科分类体系。 4.2 实用性原则: 对学科进行分类和编码,直接为科技政策和科技发展规划,以及科研经费、科技人才、科研项目、科技成果统计和管理服务。 4.3 简明性原则: 对学科层次的划分和组合,力求简单明了。 4.4 兼容性原则: 考虑国内传统分类体系的继承性和实际使用的延续性,并注意提高国际可比性。 4.5 扩延性原则: 根据现代科学技术体系具有高度动态性特征,应为萌芽中的新兴学科留有余地,以便在分类体系相对稳定的情况下得到扩充和延续。 4.6 唯一性原则: 在标准体系中,一个学科只能用一个名称、一个代码。 5. 分类依据: 本标准依据学科研究对象,研究特征、研究方法,学科的派生来源,研究目的、目标等五方面进行划分。 6.编制原则: 6.1 本标准所列学科应具备其理论体系和专门方法的形成;有关科学家群体的出现;有关研究机构和教学单位以及学术团体的建立并展开有效的活动;有关专著和出版物的问世等条件。

医院信息分类及编码设计-Read

医院信息分类及编码字典设计 一、目的 医院信息分类编码标准化工作是医院信息系统建设的一项基础性工作。为了能使新系统在通用性、可适应性、可操作性等方面有较强的优势,为APPHIS以后的市场开拓奠定良好的基础,特制定本方案。 二、原则 本系统采用的分类编码标准原则是: 凡有国家分类标准的一律采用国家标准; 无国家标准,则采用卫生部或有关司局制定的标准,包括卫生部医院管理研究所制定的一些临床应用分类标准; 凡国内无标准,国际上有标准或发达国家有成熟标准的,采用该标准; 如果只能采用医院分类标准,则一律采用用户自定义分类代码的方法。 三、细则 (一)编码 编码是一个对特定对象或事物进行分类的过程,或是对事物进行多轴分类的分类集合。在大多数分类中,各类用代码表示。事实上,编码是对对象多方面性质的解释,代码可以是数字,字母或两者兼具。下面列出了各种代码的形式。 ·数字编码(Number codes) --数字可以是以顺序的形式来表示。也就是说,每一个新的类别都是以下一个未用过的数字来表示,优点是能够很容易的添加新的类别。 --数字也可以以随机的形式来表示,这样可防止病员的特殊信息隐藏在代码里。 --系列数字可以保留给一类别组,这种类型的数字只用于一个固定类别组,这样该类别组不能随意扩大。 ·助记编码(Mnemonic codes) 助记编码是由相关类目的一个或多个字符组成。这有助于用户记住代码,然而对于多类目分类系统来说,可能导致代码太长或者代码与类目毫无类似之处。因此,助记编码通常用于有限数目的分类表,例如医院各部门通常使用记忆代码表示,如耳鼻喉科用ENT 表示,心脏病科用CAR 表示,妇产科用OB-GYN 表示。 ·分层编码(Hierarchical codes) 为了增加细目的级别,在已有代码上加上一个或多个字符就扩展成分级代码,增加了类的分级细节。分级代码含有相关类的分级细节信息及其与父类的分级关系信息。这种编码方式与分层数据库的结构相似,父类在上层,子类在下层。这意味着病人数据可以用某一特定级别的分层编码检索,即使低层上发生了重要的扩展和修改都不受影响。例如,ICD-9中使用的代码就是分层代码。 ·并列编码(Juxtaposition codes) 并列编码是由段组成的合成代码。每段提供相关类的特征。如在ICPC中,诊断码是由一个字母(助记代码)后加两位数字码组成。如所有包含"D"的编码与消化道有关,所有以"N"开始的编码与神经系统疾病有关。在ICPC中,两个相互独立的特征同时编码,每个特征在编码中都有自己的位置。 ·组合代码(Combination codes) 另一个例子是用序列化原理对医疗过程进行分类,此序列包括行为,设备,目标和解剖部位。组合内容包括一百个解剖部位,20种治疗方法,10类仪器,5类目标,这种组合可产生十万种编码的分类系统。处理这种庞大复杂的分类必须使用组合代码。通过使用六位数四个段的组合代码,其中一个两位段表示医疗方法, 一个两位段表示设备, 一个一位段表示目标,

国家标准分类的基础知识

国家标准分类的基础知识 基础分类 国家标准分类按照标准化对象,通常把标准分为技术标准、管理标准和工作标准三大类。 技术标准——对标准化领域中需要协调统一的技术事项所制定的标准。包括基础标准、产品标准、工艺标准、检测试验方法标准,及安全、卫生、环保标准等。 管理标准——对标准化领域中需要协调统一的管理事项所制定的标准。 工作标准——对工作的责任、权利、范围、质量要求、程序、效果、检查方法、考核办法所制定的标准。 标准的分级 按照标准的适用范围,我国的标准分为国家标准、行业标准、地方标准和企业标准四个级别。 (1)国家标准 由国务院标准化行政主管部门国家质量技术监督总局与国家标准化管理委员会(属于国家质量技术监督检验检疫总局管理)指定(编制计划、组织起草、统一审批、编号、发布)。国

家标准在全国范围内适用,其他各级别标准不得与国家标准相抵触。 (2)行业标准 由国务院有关行政主管部门制定。如化工行业标准(代号为HG)、石油化工行业标准(代号为SH)由国家石油和化学工业局制定,建材行业标准(代号为JC)由国家建筑材料工业局制定。行业标准在全国某个行业范围内适用。 (3)地方标准 由省、自治区、直辖市标准化行政主管部门制定。在地方辖区范围内适用。 (4)企业标准 没有国家标准、行业标准和地方标准的产品,企业应当制定相应的企业标准,企业标准应报当地政府标准化行政主管部门和有关行政主管部门备案。企业标准在该企业内部适用。 此外,围绕当前国家技术创新体系的重要组成部分-------产业技术创新战略联盟,国标委目前还正在酝酿开展联盟标准试点工作。将通过试点的方式,支持有条件的国家级试点联盟,探索开展联盟标准化与当前标准体系并存互相补充的标准管理方式。

国家标准编号字母有GB、GBT

国家标准编号字母有GB、GB/T还有什么字母,代表什么含义?chenhuacai121 11级分类:理工学科被浏览1624次2013.04.30 GB:为强制性国标 GB/T:推荐性国标 国家标准: GB 国家标准 JJF 国家计量技术规范 JJG 国家计量检定规程 GHZB 国家环境质量标准 GWPB 国家污染物排放标准 GWKB 国家污染物控制标准 GBn 国家内部标准 GBJ 工程建设国家标准 GJB 国家军用标准 行业标准: ZY 中医药行业标准 YZ 邮政行业标准 YY 医药行业标准 YS 有色冶金行业标准 YD 通信行业标准 YC 烟草行业标准 YB 黑色冶金行业标准 XB 稀土行业标准 WS 卫生行业标准 WM 外贸行业标准 WH 文化行业标准 WB 物资行业标准 TD 土地行业标准 TB 铁道行业标准 SY 石油行业标准 SN 商品检验行业标准 SL 水利行业标准 SJ 电子行业标准 SH 石油化工行业标准 SC 水产行业标准 SB 商业行业标准 QX 气象行业标准 QJ 航天行业标准 QC 汽车行业标准 QB 轻工业行业标准 NY 农业行业标准 MZ 民政行业标准 MT 煤炭行业标准

MH 民用航空行业标准 L Y 林业行业标准 LD 劳动行业标准 LB 旅游行业标准 JY 教育行业标准 JR 金融行业标准 JT 交通行业标准 JGJ 建筑行业工程建设规程JG 建筑行业标准 JC 建材行业标准 JB 机械行业标准 HS 海关行业标准 HJ 环保行业标准 HY 海洋行业标准 HGJ 化工行业工程建设规程HG 化工行业标准 HB 航空行业标准 GY 广播电影电视行业标准GH 供销合作行业标准 GA 公安行业标准 FZ 纺织行业标准 EJ 核工业行业标准 DZ 地质行业标准 DL 电力行业标准 DB 地震行业标准 DA 档案行业标准 CY 新闻出版行业标准 CJJ 城建行业工程建设规程CJ 城建行业标准 CECS 工程建设推荐性标准CH 测绘行业标准 CB 船舶行业标准 BB 包装行业标准

供水行业管理信息分类编码与图式标准

供水行业管理信息分类编码与图式标准 Classification Codes and Drawing Standards for Management Information of Water Supply (试行稿)

2003-11-01发布2003-11-01试行 上海市水务局发布 目次 1范围 (4) 2规范性引用文件 (4) 3术语 (4) 4信息分类、编码原则和方法……………………………… … … ..6 4.1信息分类 (6) 4.1.1信息分类原 则 (6) 4.1.2信息分类方 法 (6)

4.2信息编码 4.2.1信息编码原 则 (6) 4.2.2信息编码对 象 (7) 4.2.3信息编码目 的 (7) 4.2.4信息编码方 式 (7) 4.2.5分类 码 (7) 4.2.6标识 码 (7) 5分类编码表 (8) 6标识码 6.1行政区划代码表…………………………………………… 9 6.2要素实体代 码 (10) 7供水制图符号 (10) 7.1一般规定 (10)

7.1.1 范 围 (10) 7.1.2 协调…………………………………………………... 10 7.1.3 图例尺 寸 (10) 7.1.4 图例定位点和定位 线 (10) 7.2其他规定和说明……………………….…………………… 10 7.3给水制图图 例 (11) 8 属性信息设计标 准 (13) 前言

供水行业分类编码与图式标准化是实现信息共享和资源整合的一项基础工作。为推进供水信息标准化工作,上海市给水管理处按照市水务局信息化建设工作要求,主持完成本分类与编码。 根据国家标准《给水排水制图标准》(GB/T50106-2001)、《标准化工作导则第1部分:标准的结构和编写规则》(GB/T1.1-2000)等编写本标准。 本标准是按照供水行业管理需求制订,同时充分考虑了上海市各区县供水管理部门、各供水企业等供水管理要求及市水务局信息统计要求。 本标准主要包括以下内容: ------供水行业管理术语: ------供水行业管理信息分类标准体系: ------供水行业专业制图符号标准: ------供水行业管理属性信息设计标准: 本标准为全文推荐。

相关文档
相关文档 最新文档