文档库 最新最全的文档下载
当前位置:文档库 › 大规模中文语料库检索技术研究

大规模中文语料库检索技术研究

大规模中文语料库检索技术研究

余一骄;刘芹

【期刊名称】《计算机科学》

【年(卷),期】2015(042)002

【摘要】大型中文语料库的检索需求与通用文本检索系统差异很大,需要研究专门的中文语料库检索技术.Cici是一个面向GB规模的中文语料检索系统,它高效地实现了4种针对汉语研究的检索功能,涉及词性的检索、词或短语的重叠式检索、带通配符的汉字串检索、汉字串频次检索.实现以上检索功能的关键是:先统计语料库的N-gram汉字串频次,并将统计结果分别按频次大小及汉字串Unicode编码进行倒排序索引.对用户输入的检索请求,先检索汉字串频次统计结果,向用户反馈一个备选汉字串集合;然后让用户参与检索优化过程,选择正确性较高的汉字串;最后在语料库中检索用户选定的检索词.

【总页数】7页(217-223)

【关键词】汉字;语料库;检索;词性;N-gram

【作者】余一骄;刘芹

【作者单位】华中师范大学语言学系武汉430079;武汉大学计算机学院武汉430072

【正文语种】中文

【中图分类】TP391.3

【相关文献】

1.基于大规模语料库的高频汉字串互信息分布规律分析 [J], 余一骄; 尹燕飞; 刘芹

相关文档