网站大量收购独家精品文档,联系QQ:2885784924

计算机应用技术专业毕业论文 [精品论文] 基于实体聚类的网络信息检索处理.doc

计算机应用技术专业毕业论文 [精品论文] 基于实体聚类的网络信息检索处理.doc

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机应用技术专业毕业论文 [精品论文] 基于实体聚类的网络信息检索处理

计算机应用技术专业毕业论文 [精品论文] 基于实体聚类的网络信息检索处理 关键词:实体聚类 网络信息检索 搜索引擎 HAC算法 K—means算法 摘要:随着计算机技术的不断发展与应用,数字化的文本数据数量不断增长,互联网的发展更加剧了数字文本的膨胀。搜索引擎成为人们生活中获取信息的重要工具。虽然现在搜索引擎技术得到飞速发展和广泛应用,但是搜索引擎在使用中还是有很多不方便的地方,还有改进的必要。 在这种情况下,利用聚类分析技术对文本数据进行简化表示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的个性化服务都是一系列极具发展前景的应用。 尽管在搜索引擎中关于聚类的研究很多,但是由于聚类算法本身的一些缺点,其实际应用并不多。本文提出聚类技术在搜索引擎中作为一种辅助的方式存在,帮助用户重新组织检索出的网页。基于网络信息检索的特点,本文提出一种分两阶段进行的快速网页聚类策略。 在网页聚类中,HAC(Hierarchical Agglomerative Clustering)算法和K—means算法都是经常用到的,但它们都有各自的不足。在本文两阶段聚类方法中,第一阶段利用HAC聚类算法对网络检索结果的标题进行聚类,第二阶段以第一阶段结果作为初始中心用K—Means聚类标题和文本摘要,取得了比较合理的聚类结果。由于标题一般都比较短,这样可以大大减少HAC算法的运行时间。这样既满足网络检索对时间的要求又可以得到较好的聚类结果。 本文的主要贡献是:明确聚类在网络信息检索中应该起到的辅助作用,并提出了一个新的实现方法。 正文内容 随着计算机技术的不断发展与应用,数字化的文本数据数量不断增长,互联网的发展更加剧了数字文本的膨胀。搜索引擎成为人们生活中获取信息的重要工具。虽然现在搜索引擎技术得到飞速发展和广泛应用,但是搜索引擎在使用中还是有很多不方便的地方,还有改进的必要。 在这种情况下,利用聚类分析技术对文本数据进行简化表示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的个性化服务都是一系列极具发展前景的应用。 尽管在搜索引擎中关???聚类的研究很多,但是由于聚类算法本身的一些缺点,其实际应用并不多。本文提出聚类技术在搜索引擎中作为一种辅助的方式存在,帮助用户重新组织检索出的网页。基于网络信息检索的特点,本文提出一种分两阶段进行的快速网页聚类策略。 在网页聚类中,HAC(Hierarchical Agglomerative Clustering)算法和K—means算法都是经常用到的,但它们都有各自的不足。在本文两阶段聚类方法中,第一阶段利用HAC聚类算法对网络检索结果的标题进行聚类,第二阶段以第一阶段结果作为初始中心用K—Means聚类标题和文本摘要,取得了比较合理的聚类结果。由于标题一般都比较短,这样可以大大减少HAC算法的运行时间。这样既满足网络检索对时间的要求又可以得到较好的聚类结果。 本文的主要贡献是:明确聚类在网络信息检索中应该起到的辅助作用,并提出了一个新的实现方法。 随着计算机技术的不断发展与应用,数字化的文本数据数量不断增长,互联网的发展更加剧了数字文本的膨胀。搜索引擎成为人们生活中获取信息的重要工具。虽然现在搜索引擎技术得到飞速发展和广泛应用,但是搜索引擎在使用中还是有很多不方便的地方,还有改进的必要。 在这种情况下,利用聚类分析技术对文本数据进行简化表示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的个性化服务都是一系列极具发展前景的应用。 尽管在搜索引擎中关于聚类的研究很多,但是由于聚类算法本身的一些缺点,其实际应用并不多。本文提出聚类技术在搜索引擎中作为一种辅助的方式存在,帮助用户重新组织检索出的网页。基于网络信息检索的特点,本文提出一种分两阶段进行的快速网页聚类策略。 在网页聚类中,HAC(Hierarchical Agglomerative Clustering)算法和K—means算法都是经常用到的,但它们都有各自的不足。在本文两阶段聚类方法中,第一阶段利用HAC聚类算法对网络检索结果的标题进行聚类,第二阶段以第一阶段结果作为初始中心用K—Means聚类标题和文本摘要,取得了比较合理的聚类结果。由于标题一般都比较短,这样可以大大减少HAC算法的运行时间。这样既满足网络检索对时间的要求又可以得到较好的聚类结果。 本文的主要贡献是:明确聚类在网络信息检索中应该起到的辅助作用,并提出了一个新的实现方法。 随着计算机技术的不断发展与应用,数字化的文本数据数量不断增长,互联网的发展更加剧了数字文本的膨胀。搜索引擎成为人们生活中获取信息的重要工具。虽然现在搜索引擎技术得到飞速发展和广泛

文档评论(0)

seunk + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档