特征选择和贝叶斯文本分类方法的研究.pdf

摘要 随着网络应用的飞速发展和大规模数据仓库技术的广泛应用, 人们越来越容易获得来自各个方面的大量信息。与此同时却也面对 着“数据丰富,但信息贫乏”的挑战。因此人们迫切需要可以从海 量的数据信息中发现有用的规律和有价值的知识的方法和工具。数 据挖掘和知识发现技术的产生正是顺应了这个需求,并正以强大的 生命力蓬勃发展,成为数据库研究的一个新领域。文本分类作为处 理和组织大量文本数据的关键技术,是数据挖掘研究的一个重点和 热点。文本分类技术可以在很大程度上解决信息混乱问题,从而协 助人们高效管理和有效利用大量文本信息。为了得到更好的文本分 类性能,本文对文本分类中的关键技术进行了分析总结,这些包括: 文本表示模型、文本预处理、特征选择和分类方法等。其中特别对 特征选择和贝叶斯文本分类算法作了深入的研究。在这些研究的基 础上本文将改进了的特征选择方法与改进了的贝叶斯文本分类方法 有效结合起来,实现了一个文本分类系统。最后我们做了两组实验 来评定系统的性能。论文的主要研究内容概括如下: [1] 对文本分类过程中的关键技术进行了研究,包括文本表示模型、 文本预处理、特征选择、分类算法等。特别对几种常用的文本分 类方法进行了研究。 2 [2] 分析和讨

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档