- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
个性化信息检索中的相关反馈技术研究.doc
个性化信息检索中的相关反馈技术研究
[ ]面对目前用户高效准确而又个性的信息 需求,考虑在个性化的信息检索中运用相关反馈技术。 从介绍相关反馈的研究现状及基本思想出发,在深入 分析相关反馈的各种实现策略以及在不同系统中设计 的差别后,提出完整的相关反馈技术和个性化信息检 索结合的模型,最后讨论引入数据融合的思想来进一 步改善反馈效果,以期实现检索系统性能的有效提高。
[关键词]相关反馈个性化信息检索查询式修正
[分类号]TP391
当前随着社会信息化程度的不断提高,利用现有 的检索系统快速找到所需的有用信息越来越困难,一 方面是因为大量信息资源分布式存放并且融合了复杂 文本、图像、声音等非结构化信息,信息量猛增;另 一方面是由于用户提交的查询仅仅只能描述出模糊的 信息需求,往往要花费大量的时间和精力进行人工分 析和判断。为此,相关反馈技术被应用其中,检索效 果得到提高,但是,这种类型的相关反馈并没有针对 性,所以反馈的结果会出现偏差,有必要根据信息检 索者的搜索行为,并迎合他们的具体需求,也就是在 了解他们偏好的基础上更有效地实施相关反馈,因此, 本文在深入分析了相关反馈应用中一些关键问题后, 提出其与个性化信息检索的结合模型。
2相关反馈的研究现状及基本思想
国内外相关反馈研究已有三四十年的历史,并针 对布尔模型、向量空间模型、概率模型等不同的信息 检索模型进行了非常广泛的相关反馈技术研宄。有一 些系统已经利用相关反馈来改善其性能,例如, AltaVista发布的图形演示系统LiveTopic为用户提供一 些可选择的词条,并直接根据选择的词条来扩展查询; MetaCrawler元搜索引擎也为用户提供相关反馈的功 能;以Muscat系统为基础的Euroferret搜索引擎使用 相关反馈技术来帮助用户扩展查询等。
相关反馈技术的基本思想是用户对信息检索的结 果进行显性或者隐性的相关性判定,系统根据这些判 断对查询进行处理,重新检索从而提高最终结果的质 量。相关反馈技术的运用或者是为了实现查询式的扩
展,用,
展,
用,
果。
3基于相关反馈技术的个性化信息检索研究
3.1相关反馈技术的可行性分析
相关反馈技术与个性化信息检索结合,首先要考
虑相关反馈技术的实现方式,从客户端和服务器端结 合的角度,分析各种方式的实现策略及优缺点。具体 有以下几种:
?使用较多的相关反馈策略是“聚类”方法。即已
知相关文献中包含的语词可以用于描述更大范围的相 关文献。在这种情况下,更大范围相关文献簇的描述 是在用户的帮助下交互式建立的。这是一种基本的相 关反馈方式,但是用户必须针对一定数量的文献做出 相关或者不相关的判断,这里需要进行判断的文献数 量不能太少,这样反馈的效果就不明显,也不能太多, 用户没有那么多时间和耐心,所以这种方式还有需改
?针对用户查询语词的表述不明确或是不够全面,
还有一种方法:可以让用户选择一些代表相关文档的
句子或者展示给用户一个从初始文档集中抽取的名词 词组列表网,这些词与查询语词相关,可能是同义词、 近义词、词干变形或者是在文本中与查询语词非常接 近的语词,提供给用户进行反馈,在这样的基础上进 一步修改查询表达式,优化检索结果。
?从用户的检索行为中挖掘反馈信息,不需要用户 额外的操作,系统在后台监测用户检索过程,一切有 价值的信息都可以被获取来统计分析作为反馈的依据 比如,用户在一个搜索结果列表中对不同文献的点击 数可能表达了用户的偏好,用户在一个页面的停留时 间也能说明其对这篇文档的喜好,等等。但这种方式 最大的缺陷是某些信息的干扰性,很多用户的行为与 检索的目的无关,只是一种习惯或偶然现象,这时应 通过关联分析并配合各种去噪的办法,尽可能剔除这 些无用信息的影响。
?对用户行为的挖掘不能仅仅局限在当前用户上, 相关反馈还应该被用来为所有用户提高检索结果的质
比如,搜索引擎能够学习针对某一个或一类查询 表达式所列出的检索结果,哪些文献是最频繁被用户 访问的,当很多用户都有类似行为后,就可以作为一 个反馈信息,为其他更多的用户提供帮助,这种策略 的出发点在于任何人的兴趣不是孤立的,应处于某个
群体中。利用协作式信息过滤的思想,分析用户兴趣, 在用户群体中找到与指定用户的兴趣相同或相似的用 户,综合这些相同或相似用户对某一信息的评价,就 能形成系统对该指定用户对此信息喜好程度的预测。
3.2不同系统中相关反馈的设计差别
个性化的信息检索可以用在传统的信息检索系统 中,也可以用在网络搜索引擎中,虽然两者信息检索 的原理差距不大,但是,在相关反馈的设计上却是有 区别的,如果忽略两种检索环境的差异,对检索结果 存在一定影响。
传统的信息检索系统和网络搜索引擎最主要的差 别是面对的用户,因此应该考虑将分析的重点从查询 表
您可能关注的文档
- 严以用权心得体会“严以用权”要做到“三必须”.doc
- 严以用权心得体会严以用权关键要树立正确的权力观.doc
- 严以用权心得体会当好班子的带头人.doc
- 严厉下的温情论中职学生违纪处分原则及补救.doc
- 严把四关着力提升油料监督队伍素质.doc
- 严明党的政治组织纪律,提升基层作风建设的探索与实践.doc
- 严银萍工作来之不易,我很珍惜等.doc
- 个人2017工作总结.doc
- 个人2017工作总结【精】.doc
- 个人2017工作总结报告范文.doc
- 2026年及未来5年蓝信流量统计日志系统项目市场数据调查、监测研究报告.docx
- 2026年及未来5年多功能烟气分析仪项目市场数据调查、监测研究报告.docx
- 2026年及未来5年热熔焊制45°弯头项目市场数据调查、监测研究报告.docx
- 2025年学历类自考中国文化概论-中国当代文学作品选参考题库含答案解析.docx
- 2026年及未来5年微控双温区锑扩散系统项目市场数据调查、监测研究报告.docx
- 2026年及未来5年变频电机转子项目市场数据调查、监测研究报告.docx
- 2026年及未来5年数显压力机项目市场数据调查、监测研究报告.docx
- 2026年及未来5年电话十台灯十时钟项目市场数据调查、监测研究报告.docx
- 2026年及未来5年移动空调控制板项目市场数据调查、监测研究报告.docx
- 2026年及未来5年大豆纤维服饰项目市场数据调查、监测研究报告.docx
原创力文档


文档评论(0)