龙源期刊网 https://www.wendangku.net/doc/2b2787988.html,
藏语动词形态的自动识别系统研究
作者:俄果措安见才让
来源:《电子技术与软件工程》2016年第06期
摘要藏语自动分词和藏语动词形态自动识别过程中的一个重要部分,使藏语分词过程中
字串的匹配对象。电子词库中每一个词条的准确性直接影响着藏语自动分词结果和藏语动词形态自动识别结果。因此,电子词典中主要收录了所选藏语语料库中的18本藏语(翻译版)教材的5000个词条。
【关键词】自动分词动词形态自动识别电子词典
藏语动词的研究历来是藏语语法研究的核心。藏语书面语约有1500 个单音节动词,其中大多数动词具有词形数目不等的时式形态变化。在藏语的发展过程中,由于语言内部结构的语音变化及语言的外部影响,藏语动词的词形出现了不同的简化模式。
1 藏语动词形态自动识别模块
藏语动词形态的自动识别是藏语句法分析和藏语八格的识别等过程中的一个重要环节。藏语动词形态自动识别的目的是识别出藏语文本中的大量的藏语动词形态,并消除识别过程中动词形态的变化问题。藏语动词形态自动识别模块采用了以藏语传统语法为依据,格桑居冕(1982)在《藏语文法教程》(简称教程)中对藏语书面动词进行了详细讲并收集其中所讲的藏语动词形态和动词形态的接续规则来实现。最终建立了藏语动词形态的规则库,按规则库中相应的规则来识别句子中的动词形态的变化。
具体如图1所示。
2 藏语动词形态的自动识别算法
如图2所示。
在藏语动词形态识别过程中动词形态处变化处理算法描述如下:
S=“”
在S中消除具有一个以上音节的词。
S=“”
在S中消除虚词。
S=“”