文档库 最新最全的文档下载
当前位置:文档库 › 试论一体化医学语言系统_UMLS_超级叙词表的特点_方平

试论一体化医学语言系统_UMLS_超级叙词表的特点_方平

试论一体化医学语言系统(U M LS)超级叙词表的特点

收稿日期:1998—03—02

方 平

(湖南医科大学医药信息系 长沙410078)

[摘要]在简要介绍美国一体化医学语言系统的基础上,重点对其超级叙词表在词源、组织结构及信息数据诸方面的特点进行了探讨。

[关键词]一体化医学语言系统 超级叙词表

一体化医学语言系统(U nified M edica l L an-guag e System,简称U M L S)是由美国国立医学图书馆(N L M)主持的一项长期研究和开发计划。该研究计划的宗旨是建立一个计算机化的可持续发展的生物医学检索语言集成系统和机读情报资源指南系统,使医疗卫生专业人员和研究工作者能够通过多种检索交互程序,克服由于语言差异性和跨国数据库相关情报的分散性所造成的诸多情报检索问题,帮助用户在联接各种各样的情报源,包括计算机化的病案记录、书目数据库、事实数据库以及专家系统的过程中,对其中的电子式生物医学情报作一体化检索提供帮助。

U M L S又称为U M LS知识源(U M L S K now l-edg e Sources),它包括4个组成部分:超级叙词表(metathesaurus)、语义网络(semantic net wo rk)、情报源图谱(info rmat ion so ur ces map)和专家词典(specialist lex icon),这4个部分是相互紧密联系和应用的整体。超级叙词表是生物医学概念、术语、词汇及其涵义、等级范畴的广泛集成。语义网络是为建立概念、术语间相互错综复杂的关系而设计的,它为超级叙词表中的所有概念提供了语义类型及相互关系结构。情报源图谱是一个关于生物医学机读情报资源的数据库,其中对记录的标引,也应用超级叙词表和语义网络。利用情报源图谱及其同时开发的软件工具,可以测度情报源与情报提问的相关性,并提供存取条件等多方面信息。专家词典则包含有一个英语词汇数据库和U M L S知识源建立、发展和维护经常要使用到的一组词典程序和词索引程序。

由此可见,一体化医学语言系统的“一体化”,首先体现了它在专业词汇控制、计算机自动编制词表和超级叙词数据应用于智能化交互程序等多方面的综合性功能。

U M L S具有广泛的应用前景,包括创建病案数据系统、课程分析、自然语言处理和情报检索。美国国立医学图书馆本身的应用,已使它的网上检索软件I nt ernet G rat eful M ed对M edline数据库的检索趋向智能化[1],此外,还有它的“自然语言系统”程序(N L S)及N LM/A HCP R大规模词汇试验。

U M L S自1986年开始研制到1998年已发行第9版,它是80~90年代计算机化信息时代医学情报检索语言革命性变革的里程碑,也是一种全新模式的检索语言系统。

本文重点探讨U M L S中超级叙词表的结构与特点,对U M L S的其他部分,笔者将另行撰文讨论。 超级叙词表是U M L S的核心词汇部分,其英文名称“metathesaurus”前缀meta取自《韦氏英语词典》对“meta”前缀的第二种解释,即“更综合,卓越超常”。在多种意义上,超级叙词表的确胜过其所包揽的特定词表和分类表。

1 超级叙词表的收词范围及特点

超级叙词表的来源是30多种生物医学词表和分类表,这些来源约可分为以下类型:

?为病案记录系统而设计的各种术语表,如《哥伦比亚老年人医疗中心医学病种词典》(1993年)、《医学系统化术语表》(1982年)、《医学和兽医学系统化术语表》(1995年)。

?用作统计报告和列表的大型疾病和病程分类表,如《国际疾病分类(修订第9版)》、《临床(修订第3版)》(1989年)、第4版(1991年)、第6版(1996年)。

26图书情报工作(LIS) 1998年第10期(No.10,1998)

?用于记录与精神病学、护理、医疗器械、药物副作用等数据有关的专业化词表,如《精神失常诊断和统计手册》第3版(1987年)、《护理诊断分类》(1994年)、《通用医学仪器术语系统——产品目录词表》(1997年)、《世界卫生组织药物副作用词汇学》(1993年)。

?专家诊断系统或联机数据库中的疾病及其他可查寻术语,如Dx plain——麻省总医院研制的专家诊断系统、孟德尔人类遗传学联机数据库、PDQ(临床癌症事实型数据库)。

?情报检索系统所使用的叙词表,如M e SH1997年版、M eSH的葡萄牙语译本(1997年)、西班牙语译本(1997年)、法语译本(1997年)、德语译本(1997年)、《美国国会图书馆标题表》第12版。

?医学词典,如《多兰氏图解医学辞典》第27版、《医生现行工作术语》第4版(1996年)。

?工具性词表,如《校对词表》3.1版、国家卫生服务部全国编码和分类中心(1995年)、《校对词表术语的美式英语与超级叙词表概念的等同参照》(N L M)。

从以上举例可见,超级叙词表的来源词表具有多样性,这与U M LS所设计的适应病案数据系统、专家系统、情报检索系统等多应用目标的需要是一致的。同时叙词表能兼容非英文词汇,据N L M透露,未来版本的词表中将收录其他来源词表的译本。 超级叙词表在收词量方面有如下特点: 收词量大,覆盖范围广泛。1998年版的超级叙词表收录了能表达47万多个概念的1051901个词[2]。这个数量在医学情报检索语言的发展史上几乎是空前的。众所周知,60年代初发展起来的用于生物医学情报数据库EM BA SE的机控词库M A L IM ET最多收词记录是60多万个[3]。但该词库在90年代进行了较系统的整合调整,词控总量已控制在20多万个以内[4]。 不平衡性。超级叙词表对来源词表的收录,有些是完整地收录,有些则是部分地收录,数量很不平衡。例如,U M L S第8版收自M eSH1997年英文版的词串多达284856个,收自《国际疾病分类(修订第9版)》(1991年第4版)的词串为41256个,1996年第6版的词串为19560个,1989年第3版的词串则为484个。收自《人类疾病流行病学研究方法学专门词表》的词串最少,只有43个[5]。 动态性。超级叙词表的收词量也是动态性的,主要呈增长趋势,1997年版的超

13.5万个概念名称是以前版本所没同时也有删除。从1996年版本中删除的主要是以前曾在M edline数据库中出现过,但后来未再重新出现的“M eSH增补化学文档”(the M eSH Supplemen-tar y Chemical F ile)中的概念。此外,词形变异词在词表中可能有增减。

2 “概念”是超级叙词表组织系统的中心

超级叙词表是依据概念(concept)或涵义(meaning)为中心组织起来的,从根本上说,其目的是要将相同概念的交替名称和形式联系在一起,并识别不同概念之间的有用关系。这一原则表明它具有叙词情报检索语言的基本特征。

叙词表中的每一概念或涵义都有一个概念唯一标识符(CU I)。由于表达一个相同概念可能有多种不同术语(term),如同义词,而同一术语又可能有多种形式变异,如复数或其他变形,故每一种变异形式称为词串(st ring)。为了使围绕一个概念的多种不同术语连同多个变异词串都能有序地联结在一起,它采用的是一种三级结构模式。如果把概念(CU I)看作第一级的话,第二级就是表达概念的术语,表达同一概念的每个术语也有一个唯一标识符(L U I)。第三级则是表达术语的词串,每个语种的每个独立的词串也都有一个词串唯一标识符(SU I),任何大小写或其他变异都视为一个独立的词串,并有一个单独的SU I。不同语种的同一词串(如英语和西班牙语)会拥有不同的SU I。对于叙词表中的英文款目而言,通过一个共同的术语唯一标识符可将其所有变形词或微小变化的词串联系起来,也就是说,叙词表中一个术语就是其一组变形词的集合。所有词串和术语标识符又至少与一个概念标识连接,具有相同涵义的不同术语都与同一概念的标识符连接。这样,在超级叙词表中,词串与术语相连,而词串和术语又都与概念相连,如表1所示:

表1

词串术语概念

A trial fibr illation*A trial fibr illation*A trial fib rillation

A trial fibr illations

Fib rillation,at rial

Fib rillations,atrial

A uricular fibr illation*Aur icular fibrillation

A uricular fibr illation*(Synonym)

Fib rillation,au ricular

Fib rillations,auricular

Fib rillation au riculaire*Fibrillation auriculatir e

(Tr anslation,Fr ench)

27

1998年第10期(No.10,1998) 方 平:试论一体化医学语言系统(UM LS)超级叙词表的特点

ferr ed for m),对表示同一概念的一组术语和表示同一术语的多个词串也都分别指定一个优先形式,如上表中所标*者。但这种指定只是在建叙词表时指定其默认形式。实际上,用户从各种来源表中选用有特色的术语可能有不同的习惯、爱好,并有自由选用的权利,用户可以方便地对任一超级叙词表概念的交替术语、术语的不同形式以及优先形式作出选择。 默认优先形式的确定基于来源词表的先后顺序,建立这种先后顺序所考虑的因素有:主题覆盖面、更新频度以及正规临床或生物医学领域使用这些来源概念的程度。这一顺序表单独列出,可供用户查询。该顺序表不是简单地排列出各来源词表的先后顺序,来源于同一词表中的各种词串类型,如优先词、交叉参照、缩写词,在这个顺序中可能排在不同的位置。

在某些情况下,一个词串能表达两个或多个概念,称为多义词串,对多义词串的处理,如COL D,在一个来源词表中是一个有关温度的名称,而在另一个词表中,却是“感冒”的一个交替名称。超级叙词表目前对它的处理分别标以cold(1)和cold(2),作为两个不同的词串,归入两个不同的概念,因而分别具有不同的词串标识符。但今后新版本的超级叙词表可能会采用别的方式来区分。如“co ld (t emper ature)”,“co ld(disease)”。

3 以“概念”为中心的词条款目具有丰富的信息

超级叙词表的信息描述均以概念为中心,提供的信息描述可分为三类:

?概念“名称”信息,主要包括概念唯一标识符、概念名及术语状态、语种、词串及其类型等。

?概念“属性”信息,即对概念、术语、词串的属性描述。包括概念定义、语义类型,表达该概念的术语、词串及其标识符,来源词表及词类,如以人名命名的词,或缩略语、商品名、实验室数据等,此外,化学物质的CA S登记号,国际生物化学联合会酶委员会规范的酶的编码,也是概念的属性信息。

概念的定义主要来源于M eSH表或《多兰氏图解医学词典》,例如,对概念“achro mia par asitica”(寄生性色素缺乏》的定义是:发生在深肤色婴儿皮肤上的一种花斑癣病变,特别发生在热带地区,病变始于尿布部位并迅速蔓延,导致明显色素脱除。其来源为《多兰氏图解医学词典》第27版。也有一部分的定义取自其他来源词表。有些定义是专为超级叙词表创建的(该字段来源值用“M T H”表示),这仅仅是为了区分同一词串所具有的不同涵义。 超级叙词表中的每个概念至少被标引一种语义类型(semantic t ype),例如,概念“获得性免疫缺陷综合证”标引的语义类型是“疾病或综合证”。语义类型是超级叙词表和U M LS语义网络之间的连接。它们也是超级叙词表和U M L S情报源图谱的连接之一。应用程序可利用语义类型信息来确定与一个特定用户提问具有相关性的主题。语义类型还能用于从语义网络中查询有关信息,同时在情报源图谱中,语义类型可供用户在交互检索过程中修饰检索提问,并选择合适的情报源检索。

?概念“关系”信息,包括相关概念、组配概念和共现概念。这组信息用于描述不同概念之间的关系,这些关系都属于非等同关系。尽管其中的“组配表达”是多概念相结合的表达方式,有可能跟与之相连接的这个单一概念具有相同的涵义,但根据定义,它仍然属于非等同关系。

相关概念可能来自某一来源词表的明确的等级结构,或交叉参照结构,或被允许的限定词(如副主题词)信息,也可能是为构建超级叙词表的需要,利用词汇匹配技术或在人工复审过程中增加的。

概念词条对两个概念之间关系的描述,每个方向都设有不同的款目,例如“atr ial fibrillation”(心房纤颤)作为“ar rhyt hmia”(心律失常)的下位词有一个款目,“arr hythmia”作为“atrial fibr illat ion”的上位词也有一个款目。

相关概念的关系格式款目如下例:

C1510822 RB C2228511 M T H

在此例中,RB表示至少在一个来源词表中第二概念(C2228511)是第一概念(C1510822)的广义词。M T H表示来源词表为M eSH1997年版。

其他关系值还有:

RN——表示至少在一个来源词表中或在建超级叙词表时确认第二概念是第一概念的狭义词。

RO——表示至少在一个来源词表中或在建超级叙词表时确认第二概念与第一概念的关系为其他关系(非同义、狭义、广义)。

R L——表示两概念的“相似”关系,有些是属于准同义词(quasisyno ny ms),如hy pertensio n和high blo od pr essure,有时候它们被当作同义词使用,但在某些环境中又有不同的含义。当RL是作为准同义词的标记时,“关系属性”栏将提供两个概念关系的准确性质。

P A R——表示在一个来源词表中,第二概念是第一概念的上位词。

28图书情报工作(LIS) 1998年第10期(No.10,1998)

CHD——表示在一个来源词表中,第二概念是第一概念的下位词。

SIB——表示在一个来源词表中,第二概念是第一概念的同位词。

A Q——表示在一个来源词表中,第二概念可以是第一概念的限定词。

Q B——表示在一个来源词表中,第一概念可以是第二概念的限定词。

所谓组配表达(asso ciated ex pr ession)是指与某概念相关的多术语组配表达式。1997年版超级叙词表中的这种表达式是由M eSH、国会图书馆标题词表(L CSH)或O maha系统(美国社区护理保健应用系统)词汇构建而成的。这种组配表达的形式有:

?主题词/副主题词或主题词/副主题词/副主题词(即一个主题词与多个副主题词的组配表达)的形式。

?用布尔逻辑符(AN D、O R或N OT)组配的主题词表达式,或主题词/副主题词的表达式。

例如:

Pupil/A bnor malities

Po ly ps A N D Recta l N eoplasms

(R ect um OR R ectal D iseases)A ND Pain

这些数据成分中的信息可用于构建一个M eSH 或L CSH以查寻出现在超级叙词表中的某个概念款目,或者用以确定在Om aha系统中的“概念/限定词”组合与它们的狭义概念之间的正确关系。L CSH 表达式描述的实际上是L C在图书编目中所采用的组配形式,它们已被指向最接近的M eSH等同词。 所谓共现概念(co-occurr ing concept s)是指来自某些情报源中共同出现的概念及其共现频率统计数据。这些共现概念及其共现频率数据,已由美国国立医学图书馆用于Int ernet Gr ateful M ed对M ed-line数据库的智能辅助检索[6]。目前超级叙词表中的这类概念信息有两类。

第一类是来自M edline数据库的共现数据。它是计算在同一篇文献记录中共现的主要主题词或主题词/副主题词(即标有*的描述文献中心内容的标引词),提供的共现频率数据有两种:一是1992~1995年M edline数据(M ED);二是1985~1991年M edline数据(M BD)。当一个主题词作为第一概念被不同的副主题词修饰时,或它与第二概念共现但又无副主题词修饰时,其共现频率是分别计数的。 例如:

CO OO4238 COO O3811 M ED L 7 CO=1,DT=4,EP=1,ET=2,P P=2,T H=1

在这个关系格式中,COO O4238和CO O O3811是第一和第二概念唯一标识符,L表示两概念作为主要主题词共现在同一书目记录中,CO=1等表示与第一概念共现(组配)的副主题词缩写及共现频率。

概念共现关系是由情报源自动操作生成的。共现关系可能存在于类似概念之间,如“心房纤颤”和“心律失常”,或者存在于很不同的概念之间。但在生物医学领域,这些概念有某种重要的联系,例如“心房纤颤”和“地高辛”,或者存在于某个主要概念和一个副主题词之间,例如“碎石术”和仪器设备”,共现关系也可出现在没有其他明显关系的两个概念之间,但这种共现情况很少。

第二类概念共现信息,来源于美国国立医学图书馆建立的A I/R HEU M(A IR)知识库。这些信息表示在该知识库中疾病与特殊事物的共现状况,就是说,一种特定的疾病与一种特定的发现物或研究结果是呈正相关(K P)还是负相关(KN)(如一种事物是可能还是不可能导致一种疾病)。其关系格式为: COO15967 COO26691 AI R K P

超级叙词表的词条款目信息非常丰富,以上举例仅为举要,不免挂一漏万。事实上,词条款目的数据项达88种之多,有些数据项还包含有多种成分的数据[7]。虽然许多数据项是供选择的,但数据之丰富及纷繁亦可见一斑。

综上所述,超级叙词表所要显示的“卓越超常”,除了其覆盖范围广泛之外,还表现为对概念词汇的多种控制水平:

?形态学控制,即对同一术语的多种词形变异词串的控制。

?词汇学控制,在词义、词性、构词方面的控制,有既成词汇,亦有潜在可组配数据。

?语义控制,每一概念至少被标引一种语义类型,这是构成语义网络的基础,达到控制概念间的多方位语义关系。

?语用学控制,通过对概念特定关系,如上、下位关系、组配关系、共现关系及频率的控制与描述,达到控制词语专指性并提高其实用性和科学性。 U M L S是一项长期的持续发展项目,美国国立医学图书馆主持该项研究计划,并以竞争及合同方式吸引全美计算机科学、医学、语言学及图书情报科学等多学科专家参与研究,使研究计划进展迅速。

(下转第41页)

29

1998年第10期(No.10,1998) 方 平:试论一体化医学语言系统(UM LS)超级叙词表的特点

美国数学学会(A merica n M at hema tical Societ y):http://w w w.ams.o rg

美国物理学学会(A mer ican P hysical So ciety ):http ://w w w .aps .or g /

2.3 电子出版物的试用 电子出版物(如光盘、联机数据库等)以出版更新快、检索利用方便而受到用户的欢迎,发展电子馆藏是信息网络时代图书馆馆藏发展的重要任务。电子出版物价格一般较昂贵,图书馆选购应慎重,最好能在正式订购(租用)某一电子产品之前,对其进行试用,以便正确评价与选择。 目前,一些出版商、代理商给用户提供某些电子出版物的免费试用权,如U M I 、OCL C 为了推广其联机数据库的产品,免费提供账号和密码给用户使用(试用)一至数月。因此,I nt ernet 是馆藏发展人员及其他相关人员(如学科、媒体专家,电子信息服务馆员等)试用电子出版物,测试、分析、评价及选择电子出版物的重要工具。2.4 其他信息资源利用 

——馆藏发展政策。一些图书馆的主页中含有其馆藏发展政策说明等资料,可供查阅、参考。如“美国十大大学图书馆联合采购电子资源指南(草案)”即可通过Inter net 查阅、下载。

——书评信息。许多书评杂志,如《书目》(Bo ok-list )、《波士顿评论》(Bosto n Reviews)都在网上设有站点,某些著名报纸的书评专栏,如“纽约时报?图

书评论”、“华盛顿邮报?图书世界”也可在网上查阅。此外,一些出版商、代理商及书商站点亦提供书评信息。

——版权、许可信息。

——书刊赠送与交换信息。一些代理商、图书馆提供有书刊赠送与交换信息。

——电子期刊、通讯及学术讨论组。学术与专业电子期刊、通讯及讨论组可给馆藏发展人员提供某些有参考价值的信息,应了解并查阅。目前,Internet 网上已有专门的指南工具可供查找。如: D ir ect or y o f Electro nic Jour na ls ,N ewsletter s and A cademic D iscussio n L ists (7th ed.)(http://w ww.a rl.or g.scom m/edir /),由美国研究图书馆协会提供,包括7000种可在Inter net 网上查阅的电子期刊、通讯及专业电子会议,该指南有电子和印刷两种版本。 T he D ir ect or y o f Scho lar ly and Pr ofessional E-Confer -ences(http://w w https://www.wendangku.net/doc/6e13622076.html,/kova cs/)

参考文献:

1 Peggy J ohnson .C ollection d evelopmen t and th e Inter-net .Collection management and developm ent :iss ues in an electronic era.In :Proceedings of th e Advanced Col-lection M anagem ent an d Development Institute.Th e Am erican Library Ass ociation,1995

2 T on a Henders on .W eaving the W eb :usin g th e W orld

W ide W eb in lib rary acquis ition s .Library Acquis itions :Practice and T heory ,1996,20(3):367~374

Using Internet in Collection Development

Luo Chunro ng

(Zh ongsh an University Library,Guan gzhou)

[作者简介]罗春荣,女,1962年生,副研究馆员,发表论文近20篇,合作出版专著1部。

(上接第29页)

可以预料,它的出现与成熟将带给我们全新的启示。

参考文献:

1 方 平.W eb 网上IGM 的工作程式与智能检索.高校

图书馆工作,1997(2):27~81

2 U.S.Dep.of Health an d Human S ervices.National In-stitutes of Health National Library of M edicin e.UM LS Know ledge Sources 8th ed ,January 1998

3 Guide to the Classification and Indexing S ystem.Els e-vier Science Publishers B.V.,1983

4 方 平.EM T ree Th esaurus 的控制方式及特点探讨.

医学情报工作,1996,17(3):47~505 同26 同17 同5

The Characteristics of the UMLS Metathesaurus

F ang Ping

(Hunan M edical Un ivers ity,Changs ha)

[Abstract ]With th e introduction to th e U M LS Kn ow ledge Sources (NL M ),s everal as pects ,such as the vocabulary sources s tructure and information data of the metathesaurus are dis cus sed .

[作者简介]方 平,女,1946年生,教授,发表论文数十篇,出版专著多部。

41

1998年第10期(No .10,1998)罗春荣:Inter net 在馆藏发展中的应用

相关文档
相关文档 最新文档