垂直搜索中数据清洗和排序算法研究.pdf

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
垂直搜索中数据清洗和排序算法研究

摘要 摘要 “信息过载”问题随着web信息资源的迅速膨胀变得越来越严重,而搜索 引擎是解决这一问题的基本工具。由于传统搜索引擎是面向大众用户的,检索结 果往往面向各行各业,因此用户不容易找到自己所需要的信息。垂直搜索引擎的 出现在一定程度上解决了通用搜索引擎对专业领域及特定主题信息覆盖率过低 的问题。在国家科技支撑项目子课题一“基于本体的农业搜索引擎’’ 的支持下,本文围绕农业垂直搜索引擎的关键问题开展研究。 中国搜索引擎用户不满意因素的调查结果显示:用户对结果的排序不满意占 了很大的比重。本文对搜索排序算法进行了认真分析,现有通用搜索引擎大都采 用了输入一输出的响应模式,该模式没有考虑用户反馈。论文提出了一种基于 lucene基础排序算法的改进算法,该改进算法考虑了多个排序因素:(1)为了体 现网页链接的重要性,算法融合了pagerank算法;(2)网站等级得分;(3)用 户反馈得分:将反映用户兴趣的点击行为和网页浏览时间转化为兴趣度并作为搜 索结果排序的一个得分因子。该算法通过实验验证了其优越性。 优秀的排序算法也需要一个高质量的数据来源,高质量的搜索结果必然依赖 于高质量的数据,为了避免得到重复、相似或者信息不完整的搜索结果,数据的 正确性是至关重要的,否则就会出现“一流的引擎,二流的数据库的现象,所 以,数据预处理工作相当重要,数据清洗工作也被提到显著位置。本文设计了基 于MD5数字签名的数据消重算法,在查准率、查全率和响应时间上都满足实际 需求,同时,在处理不完整信息方面提出了处理方法,即利用其它项属性值来推 测缺失项属性值,以及使用最可能的值来填充缺失值,该方法己成功应用于农业 垂直搜索引擎中。 最后,本文设计一个农业垂直搜索引擎,从总体设计到核心模块设计进行了 详细说明。该垂直搜索引擎的系统测试结果显示其在查准率、查全率、响应时间 三个重要指标中均表现良好,满足了项目的实际需求。 关键词:垂直搜索用户反馈搜索排序算法数据清洗 ABSTRACT With the ofthewebinformation rapidexpansion is thesearch overload”problemworse,and isthebasictoolto getting engine solve this the problem.Becausetraditionalsearch isfor the users,andsearch enginepublic for resultsare allkindsof itisdifficultfor industries,SO USCEStofindthe infonnation need.Toacertain they extent,theverticalsearch resolvesthe oflow engine problems of informationfor coverage areasand professional whichacommon specificsubjects search

您可能关注的文档

文档评论(0)

bokegood + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档