- 1、本文档共143页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类式搜索引擎的设计与实现
PAGE
论 文
论文题目:
聚类式搜索引擎的设计与实
现
PAGE II
PAGE \* MERGEFORMAT III
毕业设计(论文)原创性声明和使用授权说明
原创性声明
本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作 者 签 名: 日 期:
指导教师签名: 日 期:
使用授权说明
本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名: 日 期:
摘 要
随着信息技术的发展,搜索引擎被大量的使用,发挥了很大的作用,同时也显现出了一些不足。一方面,Web 规模的指数增长使得任何单个搜索引擎都远远不能覆盖整个 Web网络,对于同一个查询,用户常常会使用多个搜索引擎。另一方面,搜索引擎往往会返回大量的相关结果,因此对结果进行聚类处理可以大大方便用户迅速定位感兴趣的结果。本文设计并实现了一个聚类搜索引擎,它是使用基于向量空间模型的文本聚类改进方法——LP聚类算法对查询结果进行聚类处理的搜索引擎。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法不需要比较所有簇之间的相似度,执行速度较快,适合大量文件的集合,实用性更高。在聚类过程中也不需要事先确定K的取值,降低了与领域知识的依赖性,并且有效地减少了聚类所消耗的时间,提高了灵活性。
关键词
搜索引擎;向量空间模型;文本聚类;LP算法
Abstract
As the Information technology is developing fast, the search engine has become increasingly important. But it still has some shortcomings. First, as the scale of the Web grows exponentially, no search engine can cover the whole Web. So usually more than one search engines are used for one search task at the same time. Second, the search engines always return a long list of documents which requires lots of time to look through. In this paper, ClusterSE, a search engine which use an improved methods of text clustering - LP clustering algorithm based on vector space model to deal with query results of search, is designed and implementation. In addition, according to the effects of clustering for the corpus, LP algorithm presents optimizations of clustering algorithm, including dimension determining, feature selection, etc. Proved, LP algorithm does not compare the similarity between all clusters, and the implementation of speed, a large number of documents for a collection are more practical. Furthermo
您可能关注的文档
- 基于LABVIEW的虚拟示波器设计本科设计论文.doc
- 基于LABVIEW的虚拟信号分析仪器的设计毕业设计.doc
- 基于LPC1754条形码打印设计毕业论文.doc
- 基于LPC1769和ZIGBEE的室内温湿度采集控制系统的设计本科毕业论文.doc
- 基于LPC2103和无线收发模块的温度采集系统设计毕业论文.doc
- 基于LPC2138和蓝牙技术的智能家居系统的设计硕士学位论文.doc
- 基于LR军船规范的舰船结构强度计算毕业论文.doc
- 基于LS-SVM的电力电子电路故障预测方法毕业设计.doc
- 基于LS-SVM的电力电子电路故障预测方法毕业设计论文.doc
- 基于LTCC技术滤波器的优化设计毕业论文.doc
- 高中生物实验创新设计与学生实验技能提升论文.docx
- 初中历史课堂中传统游戏的创新应用与历史意识培养研究论文.docx
- 校园自行车停放与校园交通拥堵缓解策略研究论文.docx
- 历史故事在初中历史教学中的应用与效果评估论文.docx
- 小学科学教学中前概念转变与科学探究能力培养的创新策略研究论文.docx
- 初中生心理健康教育与学校环境优化互动策略研究论文.docx
- 共享单车在小学科学教学中对小学生科学探究能力的培养论文.docx
- 小学故事大王比赛对小学生批判性思维培养的探讨论文.docx
- 基于跨学科教学的初中英语听力实践研究论文.docx
- 高中体育课堂运动会项目设置对学生体育素养的影响分析论文.docx
最近下载
- 绿城好房子体系.pptx
- AI在计算机科学教学中的应用论文.docx
- 人教版七年级历史下册期末试卷(含答案).pdf VIP
- 员工手册电子版员工手册电子版.doc VIP
- 【高考数学押题卷】2025年全国100所名校高考模拟示范卷七含答案或解析.pdf
- 孚瑞肯FR100系列变频器使用说明书.pdf
- 开放系统22226《物业管理实务(2)》期末机考真题及答案(第101套).docx
- 武侯区2018-2019学年五年级下数学调考试卷-.pdf VIP
- 尪痹(类风湿关节炎)中医护理效果评价表.docx VIP
- J B-T 10441.3-2004 电工用皱纹绝缘纸 第3部分 技术要求.pdf VIP
文档评论(0)