聚类搜索引擎系统地研究和改进.pdf

下载文档 降价啦

1
0
约5.82万字
约 56页
2018-10-19 发布于江苏
举报
版权申诉
保障服务

聚类搜索引擎系统地研究和改进.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要随着互联网技术的飞速发展，文本文档、Web页面在互联网中快速扩充，如何帮助人们更快捷、有效地获取信息，已成为目前搜索引擎领域重要的研究课题之一。鉴于此，聚类搜索引擎应运而生。聚类搜索引擎将文本聚类技术应用到搜索引擎中，对搜索结果进行有效的聚类，帮助用户快速准确地定位感兴趣内容，从而提高搜索引擎检索精度。近年来，聚类搜索引擎在国外发展迅速，许多技术已经应用成熟。相比之下国内这方面的研究还比较少，但也有部分中文搜索引擎将聚类技术引入其中，以提高中文信息检索的精度和效率。我们将其称为中文聚类搜索引擎。本文的主要工作是对聚类搜索引擎的体系结构进行了深入研究，并对现有的中文聚类搜索引擎进行改进，以提高检索的效率和精度。具体的研究工作简要概括为以下几个方面：一、对聚类搜索引擎系统及其核心模块进行了简要的设计，并在此基础上对每个模块中的关键技术做了一个详细的介绍。二、目前聚类特征选取方法大多是基于统计学的，其中最主要的缺点是忽略了词与词之间的语义关系，鉴于此，本文提出了结合语义的特征选择方法。该方法首先对特征项进行词性选择与分类，然后计算词语之间相似度，最后进行同义词合并加权。经过这些步骤使得特征选取从词的层面上升到主题语义的层面，不仅大大降低了特征空间的维度，而且提高了聚类的速度和精度。三、K-means方法在应用中容易受到孤立点的干扰，为了克服这个缺点，本文提出了一种基于平均密度过滤孤立点的方法。该方法简单实用，且能够较好的识别文本集合中的孤立点，为下一步的聚类的稳定性奠定了良好的基础。四、针对传统K．means算法中聚类参数K的不确定性以及初始聚类中心选取的盲目性，本文改进了基于“最大最小”原则选取初始聚类中心的方法，使得聚类参数K的确定过程自动化，提高了文本聚类质量。关键词：聚类搜索引擎，聚类系统，K．means，特征选取 Abstract ofintemet documentsandWeb Withthe technology,text pages rapiddevelopment howto theusersto are inintemet issueon help soaringaccordingly applications．The theinformationare for and hasbecomea acquire they searchingquicklyeffectively inthefieldofsearch the research enginenowadays，whichtriggers significantproject search search areto text of engine apply clusteringengine．Clustering appearance tosearch cluster thesearchresultsSOas effectively technologiesengine，and clustering areinterestedand to theuserstodetectwhat accurately,andthe