大规模中文语料库检索技术研究
余一骄;刘芹
【期刊名称】《计算机科学》
【年(卷),期】2015(042)002
【摘要】大型中文语料库的检索需求与通用文本检索系统差异很大,需要研究专门的中文语料库检索技术.Cici是一个面向GB规模的中文语料检索系统,它高效地实现了4种针对汉语研究的检索功能,涉及词性的检索、词或短语的重叠式检索、带通配符的汉字串检索、汉字串频次检索.实现以上检索功能的关键是:先统计语料库的N-gram汉字串频次,并将统计结果分别按频次大小及汉字串Unicode编码进行倒排序索引.对用户输入的检索请求,先检索汉字串频次统计结果,向用户反馈一个备选汉字串集合;然后让用户参与检索优化过程,选择正确性较高的汉字串;最后在语料库中检索用户选定的检索词.
【总页数】7页(217-223)
【关键词】汉字;语料库;检索;词性;N-gram
【作者】余一骄;刘芹
【作者单位】华中师范大学语言学系武汉430079;武汉大学计算机学院武汉430072
【正文语种】中文
【中图分类】TP391.3
【相关文献】
1.基于大规模语料库的高频汉字串互信息分布规律分析 [J], 余一骄; 尹燕飞; 刘芹