数据挖掘在Internet信息检索中的应用.pdfVIP

  • 25
  • 0
  • 约 68页
  • 2017-09-08 发布于浙江
  • 举报
中国科学院计算技术研究所硕士论文 摘 要 一\恤‘着Internet在全球范围的迅速兴起,如何快速而有效地从Internet上浩瀚 如海的信息空间里找到自己所需的信息,便成为了人们所关注的主要问题。搜 索引擎的出现,极大地方便了Internet用户,使得快速有效地获取信息成为可 能。 短短几年时间里中文搜索引擎从无到有,发展非常迅速,但其效果却远未 达到令人满意的程度。目前,大多数中文搜索引擎仍存在查询速度慢、查全率 与查准率低、不支持自动网页分类、没有对查询结果聚类等问题。针对这些问 题,我们将数据挖掘技术应用于 Internet信息检索领域,设计并开发了 “智能 网站信息查询系统”。丫 本文的工作是在 “智能网站信息查询系统”的开发过程中,对数据挖掘技 术进行了较为深入的研究,包括自动分词、用户兴趣模型、自动网页分类、网 页聚类等方面。本文的主要工作如下: 1.通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词 典支持全二分最大匹配分词算法,利用该分词算法进行自动分词的时间 复杂度从目前最快的l.“提高到了1.120 2.基于对Web结构信息的分析,构建了一种用户兴趣模型,并给出了网 页相似度的计算方法。在此基础上,设计并实现了一种网页相似度优先 的WWW信息采集算法。 3.分析了网页结构信息之后,构造了一种基于网页分类树的网页分类器, 并利用该分类器对网页进行自动分类。 4.在介绍了网页。一词重合度 (Resemblance)的概念之后,给出了网页n- 词重合度的计算方法,并设计了一个的快速网页聚类算法。 5.介绍了 “智能网站信息查询系统”的设计和实现过程。 关键词:数据挖掘,信息采集,信息检索,分类器, 中国科学院计算技术研究所硕士论文 Abstract ZepingXu(ApplicationofComputerTechnology) DirectedbyProfessorWeiqingTang AsamountofinformationgrowscontinuouslyontheInternet,ithasbecomea greatchallengetoretrieveinformationrfomInternet.Theemergenceofsearch enginesmakesitpossibleforpeopletogetinformationrapidlyandeffectively. Inrecentyears,Chinesesearchengineshaveproliferatedwiththegoalof peoplesneedsforfindingandaccessingChineseinformationonInternet.However, theireffectisfarfromsatisfying.TherearestillmanyproblemsinmostofChinese searchenginessuchastheslowspeed,thelowrecallandprecison,lackof classificationofwebpage,andetc.Tosolvetheseproblems,weapplydatamining technologytoInternetinformationretrievalfieldtodesignanddevelopasearch enginesystem- WebInformationIntelligentSearchSystem. IntheprocessofbuildingWebInformationIntelligentSearchSystem,wehave madeathoroughstudyontheapproachesofdatamining,includingChinesephrase segmentation,usersinterestmodel,classificationofwebpage,clusteringofweb page,andetc. Thefollowingismymain

文档评论(0)

1亿VIP精品文档

相关文档