- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息检索中相关反馈等技术的研究.pdf
摘 要
摘 要
计算机和网络技术的飞速发展使Web信息的发布与共享超越了时空的限制,同时也给我们带
来了 “信息过载”的问题,即信息资源极大丰富,但对于每个特定的用户而言,真正有用的信息
和知识却相对匾乏。绝大多数Web信息检索系统的检索返回结果与用户的信息需求毫不相十,!州
而为用户索取所需的Web信息资源变得非常重要。
Web信息检索的主要功能是为用户提供方便快捷准确的信息索取服务:按照用户提交的查询
在Web文档库中进行查找,将符合用户需求的结果返回给用户。搜索引擎等Web信息检索系统
虽然能够部分地满足用户的需要,但在准确率、易用性等方面仍存在诸多问题,其效果远不能使
人满意。据此,本文对信息检索尤其是Web信息资源的有效检索这个既有重要理论意义又有广阔
实际应用的课题进行了研究和探索。
本文在对Web信息检索现状进行剖析的基础上,采用基于统计学习的方法,探讨了Web文
档内容的表示、组织、检索和主题分类等问题,对相关反馈等关键技术进行了系统深入的研究,
取得了如下几个方面的成果:
(1)首先系统介绍了Web信息检索的历史和系统的体系结构,并对国内外Web信息检索
系统的现状进行了回顾与评价;分析了Web信息资源的特点及其导致的信息检索问题;接着探讨
了Web信息检索系统的分类和基本功能;总结了Web信息检索系统涉及的若干关键技术及其存
在问题。针对上述分析,确定了本文利用统计学习方法并结合相关反馈技术,对信息检索涉及的
部分问题进行研究的思路。
相关反馈技术是近年来信息检索技术研究的热点之一,也是克服用户查询含义模糊、明确用
户信息需求的有效手段之一。本文在介绍传统信息检索系统的基本原理和存在的问题的基础上,
阐述了相关反馈技术在Web信息检索中的作用;概述了基于相关反馈技术的Web信息检索系统
的原理和体系结构,详细讨论了其涉及的若干关键技术:包括相关反馈技术的分类、用户兴趣的
获取、学习方式与存储位置;讨论了相关反馈技术在信息检索及其它领域中的应用;最后给出了
对基于相关反馈技术的信息检索进行性能评价的标准。
(2)利用词条权值对序列的数据结构表示Web文档的内容与用户兴趣具有简单有效、预处
理工作少、应用范围广等优点。在上述表示方式的基础上,本文应用相关反馈技术,结合Rocchio
算法的思想,提出一种基于词条权值对序列的相关反馈算法RFAKWS。利用用户反馈的文档内容
计算用户的兴趣向量,并为用户兴趣向量中每个词条引入年龄和淘汰率等参数,随着用户的反馈
进行调整,模拟适应用户信息需求的变化和迁移。利用用户兴趣向量结合文档向量空间模型,对
检索结果进行评价和重排,辅助用户的信息检索。该算法简单直观,计算量小,易于与基于词条
索引的搜索引擎集成,便于推广应用。
(3)利用模式识别分类算法进行Web信息检索可以充分利用机器学习的研究成果和经验,
在模式识别的框架下信息检索的过程是:利用机器学习算法从用户反馈的Web文档中学习有关的
检索知识,然后对文档库中的Web文档进行与用户信息需求相关和不相关的分类。学习用户的反
馈本质上是一个有指导的机器学习的过程,而分类则是一个传统的模式识别问题。在相关反馈的
过程中,用户反馈的文档数日比较少,是一个小样木的学习过程,常规的分类器难以保证分类性
能。支持向量机 (SVM)具有学习和分类速度快、泛化性能好等特点,在少量的样木之下就口1以
获得较好的分类效果,满足检索的要求。为了满足SVM对输入向量的要求,本文利用主成分分
第 {页
摘 要
析进行文档向量空间变换和降维,不但可以克服词条间的同义词与反义词现象对信息检索的影
响,保证文档向量的各个分量之间相互独立,而且解决了Wei)文档内容向量的稀疏性和高维度问
题,有利于sVm训练性能的提高。由于用户的信息需求随着时间推移会发生变化,而增量式SVm
算法的增量学习过程可以提高训练性能,不断地学习用户新反馈的文档,拟合用户信息需求的变
化,在实际的信息检索实验中获得了令人满意的效果。
(4)文档向量空间模型和Rocchio算法在信息检索中有着广泛的应用,已经成为事实上的工
业标准,但Rocchio算法求得的用户兴趣向量难以保证是最优的。为了获得高质量的用户兴趣向
量,木文利用主成分分析和文档的向量空间变换,将文档的向量变换到非稀疏的低维向量空间
您可能关注的文档
- 人教版八年级下册第一单元第1课《藤野先生》课堂教学实录.doc
- 人教版八年级下册第三单元第11课《敬畏自然》教学实录.doc
- 人教版八年级下册第三单元第15课《喂——出来》教学实录及说明.doc
- 人教版八年级下册第五单元第21课《与朱元思书》教学设计.doc
- 人教版八年级下册第五单元第22课《五柳先生传》教学设计.doc
- 人教版八年级下册第五单元第22课《五柳先生传》课堂实录.doc
- 人教版八年级下册第五单元第23课《马说》教学设计.doc
- 人教版八年级下册第五单元第23课《马说》课堂实录.doc
- 人教版八年级下册第五单元第24课《送东阳马生序》教学实录.doc
- 人教版八年级下册第五单元第24课《送东阳马生序》教学设计.doc
- 信息提取题.ppt
- 信息提取题限时训练.doc
- 全国新课标物理2016年命题趋势分析报告及相关备考策略建议课件(共61张PPT).ppt
- XMPP协议的安全性分析及其应用研究.pdf
- 八年级语文下册(人教版)教案全册.doc
- 冀教版七年级下册第一单元第5课《桃花源记》教学案例.doc
- 冀教版八年级上册第五单元第23课《清塘荷韵》教学设计和反思.doc
- 内蒙古包头市包钢四中2015-2016学年高一上学期期末考试数学(文)试卷.doc
- 内蒙古包头市包钢四中2015-2016学年高二上学期期末考试数学(文)试卷.doc
- 内蒙古自治区呼伦贝尔市大杨树第三中学2016届高三上学期第一次月考物理试卷.doc
文档评论(0)