文档库 最新最全的文档下载
当前位置:文档库 › 文本分类方法主要研究方向

文本分类方法主要研究方向

文本分类是信息检索领域中一个非常活跃的研究方向。众多学者在这个领域进行了深入细致的研究。当前的研究重点主要集中在以下几个方面:(1) 海量文本的快速分类信息技术的发展使文本的规模越来越大,对信息处理的速度和精度提出了更高的要求,如何在不降低分类精度的情况下,降低特征空间的维数和分类算法的时间复杂度,成为了文本自动分类的研究重点之一。

(2) Web 文档的分类对纯文本文档的分类,只能依靠文本内容和段落结构信息。对Web 文档的分类还可以充分利用网页中的字体、颜色、超链接(Hyperlink)等结构信息等,从而进一步提高分类精度。网站建设

(3) 分类器组合分类器组合(Combination)又叫分类器委员会,熔合,整体和聚合(Aggregation)等等。它的思想起源于多专家决策。很显然,多个专家要比单个专家作出更好的决策。在文本分类领域,就是指采用多个分类器进行训练,然后分类时组合每个分类的决策。

根据是否对训练集进行取样,分类器组合大体上可以分为两类:分类器简单组合方式与重采样方式。在分类器简单组合方式中,训练集对所有成员分类器而言保持不变。训练时各成员分类器独立进行,分类时组合所有成员分类器的分类结果。Larkey 设计了一个基于Roochio、贝叶斯与最近邻的组合分类器。他的实验结果表明任何两两组合的分类精度要高于单个分类器的分类精度;而三个分类器的组合的分类精度要高于任何两两组合的分类精度。Larkey 的实验在一定程度上表明了组合分类器能够对其成员分类器进行取长补短。

重采样方式对训练集进行多次有放回采样,然后采用某个弱分类器算法在这些采样出来的多个训练集上训练出多个分类器。Bagging 与Boosting 就是这类方法的代表。Bagging 采用均匀采样;而Boosting 根据己经产生的分类器的分类效果对训练集进行采样,重点突出错分样本。Schapire 开发了BoosTexter 系统,该系统采用决策树作为弱分类器,实现了两个Boosting 算法,即AdaBoost 与AdaBoostMR。实验结果表明AdaBoost 表现出了相当好的分类质量。做网站0532-*******

(4) 多语种文本的分类随着各种语种和混合语种的文本信息迅速增加,如果使用一种分类器就可以对不同语言的文本进行分类,将极大地简化分类工作。

(5) 层次化文本分类在分类过程中,常常把文档类别看成是互不相交的,处在一个平面层次上。然而,文档概念类别之间有时存在着层次关系,即一个大类往往包含许多小类,小类之下又有更小的类。而且,当文档库特别庞大时,人们往往也是按照概念层次结构对文档库中的文档进行管理。例如现有的Web 搜索引擎所提供的目录结构就是一种层次分类结构。按照层次结构对文档库进行分类更能体现文档之间的语义关系

相关文档