报业综合搜索引擎要点.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
项目编号 创新基金项目 申 请 书 项 目 名 称: Nutch的报业垂直搜索引擎的设计与研究 申 请 者: 指 导 教 师: 所 在 院 系: 申 请 金 额: 申 请 日 期: 联 系 电 话: 创新基金项目管理办公室制 一、基本情况 二、研究方案 1.研究目的和意义: 搜索引擎技术近年来获得飞速发展,目前全球搜索引擎中最顶尖的两个巨头是Google和雅虎。在国内,也产生了大量的中文搜索引擎,如:百度、搜狐、天网、中搜等。这些搜索引擎系统中,有的日访问量超过5亿次每天要“消化”数以十亿计的网页 2. 研究内容与方法: 1、项目研究主要内容和拟解决的关键问题 本项目拟通过构建对象语义库来存储和管理各种对象集,从而实现用户基于对象的检索过程,以提高搜索引擎查询的准确率。考虑通过在用户检索的过程中加入用户交互的过程,即:当用户检索一组关键词后,返回给用户的是一组对象集,用户从这些对象集中选择感兴趣的对象,以缩小查询范围。用户将选定的对象再提交给搜索引擎系统进行检索,得到最终的检索结果。这样,采用对象语义库来辅助搜索过程,可以在很大程度上提高搜索引擎结果集的准确性,可以让用户很快定位到想要的内容网页。 本系统所着重解决的关键技术问题主要包括: 报业引擎系统的搭建:针对已有的报业基础数据,搭建综合云检索引擎,搭建搜索引擎底层系统。主要包括,爬虫模块、索引模块、Web查询服务模块。 对象语义库的构建问题:主要参照人类认识事物的方式根据关键词构建对象语义网络。如:可根据关键词,美国、篮球、上海、运动员等关键词确定我国著名篮球运动员姚明,这样在对象语义库中存储如下信息:对象名为姚明,关键词组为美国、篮球、上海、运动员。对象语义库的构建是一个复杂的过程,需要不断完善。 用户搜索页面的设计:添加用户交互部分页面,这些内容将使用JSP语言实现,搜索过程调用引擎底层API(具体处理过程见图1)。 对象语义库的自适应性更新:根据用户对查询结果的点击行为以及用户的查询关键词组,采用统计的方法由系统自主更新对象语义库,使得对象语义库不断完善。 2、拟采取的研究方法、技术路线、实验方案及可行性分析 系统开发采用底层搜索引擎系统,在Nutch的基础上,使用Oracle数据库存储对象语义库。用户在搜索的过程中首先根据关键词检索对象语义库,返回用户匹配的对象,用户从对象列表中选择特定的对象进行检索,最后,搜索引擎系统再将检索结果返回给用户。考虑到对象语义库的准确性、完整性问题,本系统通过用户的检索关键词以及对检索结果的点击,实现动态的对对象语义库进行更新。 系统处理流程如图1所示: 图1智能语义搜索处理流程图 图1中各步骤的处理流程如下: 用户基于关键词的查询; 由关键词提取对象信息,并将检索的对象结果列表返回用户; 用户从对象列表中选取所需的对象并提交给索引系统进行检索; 在索引库中检索网页内容,此时可以分为两类:(I)检索对象索引库,找到命中的网页;(II)检索Nutch的关键词索引库,作为基于对象的检索的补充,这部分结果在搜索结果集中排在对象检索结果的后面; 返回用户检索结果集; 记录用户的点击行为,实时更新对象索引库。 项目在实施的过程中主要是在导师的指导下,与指导老师开展广泛的团队协作开发与研究工作,项目建设周期拟定为1年,采用项目负责人负责制,由导师负责项目的总体协调、指导工作,严格管理项目经费使用情况。及时向学校教务处报送项目的进展情况,接受项目监督部门的监督,同时积极与其它创新团队开展各种方式的交流活动。 在系统开发的过程中将采用软件工程的方法,经历系统需求分析,系统概要设计,系统详细设计,系统编码,系统测试等步骤。项目管理主要采用工程化的管理方法,在导师团队的指导下,充分发挥项目团队中各成员的专业基础、已具备的能力水平。由项目负责人负责项目的管理工作,使用MS Project2003辅助进行项目管理,严格控制项目进度、节约开发成

文档评论(0)

文档资料 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档