基于特征提取和权值计算算法中文网页分类的研究.docVIP

  • 10
  • 0
  • 约5.29万字
  • 约 59页
  • 2016-08-14 发布于江苏
  • 举报

基于特征提取和权值计算算法中文网页分类的研究.doc

摘 摘  要 要 在现代社会,互联网急剧地改变着我们的生活,面对互联网上巨量的信息, 如何得到我们真正想要的信息变成了一个非常重要的问题,网页分类便成为了 一个热点研究领域。网页分类就是根据一定的规则实现大量的网页的自动归类, 进而对网页进行有序组织,改善信息检索的性能,提高网络资源的利用率。特 征提取和加权是网页分类过程中的重要步骤,也是提高网页分类效率的前提, 算法的优劣直接影响到分类器的性能。 本文的工作是在“中文网页分类系统”的开发过程中,对网页分类技术进 行了较为深入的研究,包括中文网页信息提取、自动分词、特征提取、权值计 算、自动网页分类等方面,并基于传统的特征提取和权值计算算法提出自己的 改进算法。本文的主要工作如下: 首先,介绍了网页分类的国内外现状和研究方法,并指出课题研究的重点 和难点。 其次,我们较为深入地研究了传统的MI算法和tf-idf公式在网页分类中的应 用及其存在的不足,发现传统的MI算法忽视了互信息值为负的特征以及过分倾 向于低频词,另外传统的tf-idf公式忽视了特征项在类别之间的分布,并针对这 些不足对传统的算法提出改进,再通过实验证明改进的优越性和可行性。 最后,本文利用有监督的机器学习理论构建一个网页分类器。运用改进型 的互信息算法对分词结果进行特征提取,对传统的tf-idf加权公式进行了一些改 进,运用KNN算法构建分类器。进行了大量的实验,实验结果表明改进后的算 法相对传统算法具有优越性,实现了较高的精确度。 伴随着互联网上信息的飞速增长,网络数据挖掘越来越变成一个重要的学 术研究领域,中文网页分类作为网络数据挖掘领域的重要分支,具有重大的研 究价值和现实意义。 关键词:中文网页分类;特征提取;权值计算 I Abstract Abstract In modern society, the Internet has been dramatically changing our lives. Facing a huge amount of information on the Internet, the problem of how to get the information we really want becomes a very important issue. Thus, page classification has become a popular area of research. The web page categorization is a process using computers to classify large quantity of web pages automatically according to some categorization rules. It can organize the web pages orderly, improve the performance of information retrieval system and increase the availability of web resources. Feature selection and weights calculation are key steps of web page categorization,they are also prerequisite to improving the efficiency of web page classification. What’s more, the algorithm will directly affect the performance of classifier. In the process of establishing Chinese Web page classification System, we have made a thorough study on the approaches of Web page classification, including Chinese Web page information extraction、Chinese phrase segmentation、feature extraction、weights calculation、classification of Web page, and etc. The author also propose

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档