- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于会话管理Web即时信息检索研究
基于会话管理Web即时信息检索研究
[摘要]在分析已有相关研究的基础上设计一个基于会话管理的Web即时信息检索代理JITIRA,该代理对用户提交给搜索引擎的查询或打开的新网页进行处理,并在此基础上即时构造新查询,并代替用户提交给搜索引擎。实验表明该方法有助于提高查准率。
[关键词]会话Web即时信息检索 即时信息需求噪音网页识别 会话边界识别
[分类号]TP391.3
即时信息检索(Just-in-Time Information Retriev-a1)是指利用代理软件来自动捕获用户当前的上下文信息,在此基础上识别用户的即时信息需求,主动进行信息检索并为用户提供与即时信息需求相关的信息。有助于识别用户即时信息需求的方法较多,其中用户在信息检索过程中的会话行为是较重要的一种。
根据用户的会话行为来实现即时信息检索,国外已有相关的研究。Jay Budzik等设计了一个即时信息检索系统Watson,该系统能从用户与微软的WORD、IE等应用程序的会话中自动获取上下文信息,然后将这些信息与用户查询相结合,形成一个能较好地表达用户即时信息需求的检索条件,并据此进行即时信息检索。Shen Xuehua等认为,在信息检索的当前会话内,前几步的查询、最近刚浏览过的文档等短期上下文与用户的即时信息需求密切相关,可有效改善信息检索的效果,并进一步提出了适用于单一会话期的、基于隐式反馈的信息检索语言模型,在语言模型的计算过程中考虑了前几步的查询和点击流信息。SnfithaSrirmnN]等提出了一种基于会话上下文的信息检索方法,该方法根据查询之间的时间先后次序和概率相似度来识别会话边界,并将已点击网页的标题和摘要与同一个会话内的查询历史和点击历史合并起来,形成新一轮的查询。陈红刚与庄超提出可在即时信息检索的后台将查询中的数据和已有知识结合起来,以便提高查准率。
本文将在现有研究的基础上设计并实现一个基于会话管理的Web即时信息检索代理JITIRA(Just-In―Time Information Retrieval Agent),其中会话管理是指对用户的会话行为进行处理,主要包括:通过会话边界识别来确定用户提交的新查询所属的会话;通过噪音网页识别来确定最新打开的结果网页是否与当前查询??关;在前两步工作的基础上对用户所提交的新查询、查询所属的会话、浏览的相关网页等信息进行记录。
1 JlTIRA 工作原理
1.1 J1TIRA的运行方式
JITIRA在用户的计算机上运行,用Java和JsP实现,运行时,需要在用户的计算机上安装并运行Tom―cat4.0或更高版本的Web Server。
1.2 JITIRA的设计思路
JITIRA的总体设计思路是:由会话行为处理模块接收并有效扩展用户提交的查询,将其转换为目标搜索引擎规定的格式后提交给该搜索引擎;如果用户没有提交新查询而是在结果列表中打开了一个新的网页,则由会话行为处理模块识别用户的即时信息需求,并代替用户向目标搜索引擎提交查询。
从整体上来看,JITIRA只负责识别用户的查询意图并向搜索引擎提交查询请求,实际的查询及结果排列则由搜索引擎来完成。具体实现时,会话行为处理模块所包含的关键词输入网页负责获取用户输入的检索词,会话行为处理模块所包含的网页处理程序负责获取并处理用户在结果列表中打开的新网页,会话行为处理模块所包含的查询转换程序负责向搜索引擎提交查询。查询转换程序通过搜索引擎的查询接口向搜索引擎提交查询,其中百度的查询接口为“http://www.省略/s?wd=”,谷歌的查询接口为“ht―tp://www,/search?q=”,搜狗的查询接口为“http://www.省略/web?query=”。JITIRA用“+”连接所有的查询词(包括JITIRA生成的扩展词),将其放置在上述某个查询接口的尾部并发出HT-TP请求,即可通过相应的搜索引擎进行检索。
1.3 JITIRA的体系结构
根据上述思路设计出来的JITIRA主要有两项功能:一是监视用户与搜索引擎之间的会话行为,在会话边界和噪音网页识别的基础上形成会话记录;二是每当用户有新的会话行为(主要是提交了新查询或打开了新的结果网页)时,立即根据会话记录进一步确定用户的即时信息需求,提交新一轮的查询并由搜索引擎返回结果列表。为了有效地利用会话记录,JITIRA为每个查询都设置了一个查询向量和一个有效浏览向量。查询向量由该查询中所有的查询词生成,有效浏览向量由用户在该查询的结果列表中所浏览的所有相关网页生成,其值为所有相关网页的网页向量加权和,其中一个网页的网页向量可通过统计该网页中所有关键词的词频来生成。
您可能关注的文档
- 城市公共图书馆商务支持服务国际经验和启示.doc
- 城市公共空间与防灾应急避难功能研究.doc
- 城市养老服务体系建设中社会参与研究.doc
- 城市农民工教育培训亟需加强.doc
- 城市分区规划编制体系新框架探析.doc
- 城市化下水困境.doc
- 城市化与城市病关系.doc
- 城市化发展相关问题思考.doc
- 城市化均衡农地产权变迁依赖.doc
- 城市化对东部报纸报道内容影响.doc
- 基于人工智能教育平台的移动应用开发,探讨跨平台兼容性影响因素及优化策略教学研究课题报告.docx
- 高中生物实验:城市热岛效应对城市生态系统服务功能的影响机制教学研究课题报告.docx
- 信息技术行业信息安全法律法规研究及政策建议教学研究课题报告.docx
- 人工智能视角下区域教育评价改革:利益相关者互动与政策支持研究教学研究课题报告.docx
- 6 《垃圾填埋场渗滤液处理与土地资源化利用研究》教学研究课题报告.docx
- 小学音乐与美术教师跨学科协作模式构建:人工智能技术助力教学创新教学研究课题报告.docx
- 《航空航天3D打印技术对航空器装配工艺的创新与效率提升》教学研究课题报告.docx
- 教育扶贫精准化策略研究:人工智能技术在区域教育中的应用与创新教学研究课题报告.docx
- 《区块链技术在电子政务电子档案管理中的数据完整性保障与优化》教学研究课题报告.docx
- 《中医护理情志疗法对癌症患者心理状态和生活质量提升的长期追踪研究》教学研究课题报告.docx
文档评论(0)