数据挖掘在Internet信息检索中的应用.pdfVIP

下载本文档

25
0
约 68页
2017-09-08 发布于浙江
举报

数据挖掘在Internet信息检索中的应用.pdf

中国科学院计算技术研究所硕士论文摘要一\恤‘着Internet在全球范围的迅速兴起，如何快速而有效地从Internet上浩瀚如海的信息空间里找到自己所需的信息，便成为了人们所关注的主要问题。搜索引擎的出现，极大地方便了Internet用户，使得快速有效地获取信息成为可能。短短几年时间里中文搜索引擎从无到有，发展非常迅速，但其效果却远未达到令人满意的程度。目前，大多数中文搜索引擎仍存在查询速度慢、查全率与查准率低、不支持自动网页分类、没有对查询结果聚类等问题。针对这些问题，我们将数据挖掘技术应用于 Internet信息检索领域，设计并开发了 “智能网站信息查询系统”。丫本文的工作是在 “智能网站信息查询系统”的开发过程中，对数据挖掘技术进行了较为深入的研究，包括自动分词、用户兴趣模型、自动网页分类、网页聚类等方面。本文的主要工作如下: 1.通过为分词词典建立首字Hash表和词索引表两级索引，使得该分词词典支持全二分最大匹配分词算法，利用该分词算法进行自动分词的时间复杂度从目前最快的l.“提高到了1.120 2.基于对Web结构信息的分析，构建了一种用户兴趣模型，并给出了网页相似度的计算方法。在此基础上，设计并实现了一种网页相似度优先的WWW信息采集算法。 3.分析了网页结构信息之后，构造了一种基于网页分类树的网页分类器，并利用该分类器对网页进行自动分类。 4.在介绍了网页。一词重合度 (Resemblance)的概念之后，给出了网页n- 词重合度的计算方法，并设计了一个的快速网页聚类算法。 5.介绍了 “智能网站信息查询系统”的设计和实现过程。关键词:数据挖掘，信息采集，信息检索，分类器，中国科学院计算技术研究所硕士论文 Abstract ZepingXu(ApplicationofComputerTechnology) DirectedbyProfessorWeiqingTang AsamountofinformationgrowscontinuouslyontheInternet,ithasbecomea greatchallengetoretrieveinformationrfomInternet.Theemergenceofsearch enginesmakesitpossibleforpeopletogetinformationrapidlyandeffectively. Inrecentyears,Chinesesearchengineshaveproliferatedwiththegoalof peoplesneedsforfindingandaccessingChineseinformationonInternet.However, theireffectisfarfromsatisfying.TherearestillmanyproblemsinmostofChinese searchenginessuchastheslowspeed,thelowrecallandprecison,lackof classificationofwebpage,andetc.Tosolvetheseproblems,weapplydatamining technologytoInternetinformationretrievalfieldtodesignanddevelopasearch enginesystem- WebInformationIntelligentSearchSystem. IntheprocessofbuildingWebInformationIntelligentSearchSystem,wehave madeathoroughstudyontheapproachesofdatamining,includingChinesephrase segmentation,usersinterestmodel,classificationofwebpage,clusteringofweb page,andetc. Thefollowingismymain

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘在Internet信息检索中的应用.pdfVIP