聚类式搜索引擎的设计与实现毕业论文.doc

  1. 1、本文档共143页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类式搜索引擎的设计与实现 PAGE 论 文 论文题目: 聚类式搜索引擎的设计与实 现 PAGE II PAGE \* MERGEFORMAT III 毕业设计(论文)原创性声明和使用授权说明 原创性声明 本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。 作 者 签 名:       日  期:         指导教师签名:        日  期:        使用授权说明 本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 作者签名:        日  期:         摘 要 随着信息技术的发展,搜索引擎被大量的使用,发挥了很大的作用,同时也显现出了一些不足。一方面,Web 规模的指数增长使得任何单个搜索引擎都远远不能覆盖整个 Web网络,对于同一个查询,用户常常会使用多个搜索引擎。另一方面,搜索引擎往往会返回大量的相关结果,因此对结果进行聚类处理可以大大方便用户迅速定位感兴趣的结果。本文设计并实现了一个聚类搜索引擎,它是使用基于向量空间模型的文本聚类改进方法——LP聚类算法对查询结果进行聚类处理的搜索引擎。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法不需要比较所有簇之间的相似度,执行速度较快,适合大量文件的集合,实用性更高。在聚类过程中也不需要事先确定K的取值,降低了与领域知识的依赖性,并且有效地减少了聚类所消耗的时间,提高了灵活性。 关键词 搜索引擎;向量空间模型;文本聚类;LP算法 Abstract As the Information technology is developing fast, the search engine has become increasingly important. But it still has some shortcomings. First, as the scale of the Web grows exponentially, no search engine can cover the whole Web. So usually more than one search engines are used for one search task at the same time. Second, the search engines always return a long list of documents which requires lots of time to look through. In this paper, ClusterSE, a search engine which use an improved methods of text clustering - LP clustering algorithm based on vector space model to deal with query results of search, is designed and implementation. In addition, according to the effects of clustering for the corpus, LP algorithm presents optimizations of clustering algorithm, including dimension determining, feature selection, etc. Proved, LP algorithm does not compare the similarity between all clusters, and the implementation of speed, a large number of documents for a collection are more practical. Furthermo

您可能关注的文档

文档评论(0)

weidameili + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档