Web查询细化Agent.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web查询细化Agent 邹声元周龙骧 (中国科学院数学研究所,北京,100080) 摘要 随着www的爆炸性增长,搜索引擎通常返回太多的文档。在信息检索中,传 统办法之一足利用奁询细化提高精度。根据目前Web上用户使用浏览器和搜索引擎的特 点,本文设计丁一个查询细化agent,它能自动捕获具有高区分能力的扩展词项和禁止词 项并提示用户选用.从而更有效地查询。本文也给出了这个agent的体系结构。 关键词 查询细化,搜索q{擎,刀维网 1引言 随着Internet主机和Web页面的爆炸性增.对~‘个查询条件,搜索引擎可返回几十甚 至几十万条文档信息,而在其中用户并4i容易找到需要的文档,这已经成了Web信息查询中 retrieval)rp.查询扩展(queryexpansion)技 展现实也最有挑战的问题。在信息检索(information /f亡111芷解决这个问题的传统方法之。Web上应用查询扩展的过程如图l所示: 图1细化查询过程 本文认为,LI前在Web上应用的查询扩展技术M“…存在三个问题。其一,增加概念上更 精确的词项不总是能相应地提高查词效果;其二,在所有应用领域建立提供扩展词项的相关 测库是非常困难的,词库要跟踪和反映Intcrnet上文档的动态变化就更难;其三,过多的词项 选择.增加了用广的负担。 0RA无缝地嵌入浏览器和搜索引擎之间.利用搜索引擎返回结果和用户的浏览操作.自动产 生数日适当的有效查询词项供用户选择.从而实现了一种简单、有效和实用的查询细化方法。 2搜索引擎的工作原理和查询细化词项的区分能力 日前Web上的搜索引擎很多”M¨…,它们检索的Web站点不同,收集的文档不同,查询 与文档的内部表示不同,匹配查询与文档的算法也不同,但基本原理类似布尔检索(Boolean 词项.表示必须满足的查询要求.以精确匹配查询文档。tf*lDF不需要逻辑连接词,把文档 和查询部看成一个矢量.每个分量是一个词项的权值。匹配是计算文档和查询矢量的点积或 其夹角的余弦,结果越大,对应的文档越匹配查询,且排得越前。流行的搜索引擎常常包括 布尔检索,允许用类似AND,OR和NOT的逻辑词;但主要应用类似Ⅱ’IDF的方法.同时 ,r99嚣篇;淼裟~…~u 澳门簧赢年曹_t__ 允许用‘‘十”和“一’’来规定某些词必须出现和禁Jr某口b词项出现在文档中㈣㈣㈣㈣。搜索引 擎无论用什么方式表示文档和计算,它们都有以下兆同点:查询条件越精确,一般来说即相 关查询词项越多,与之匹配的结果越满足用户的信息需求:如果禁止词项选择得恰当,将大 lerln)。 term)统称为细化词SⅢ(refmed 但是精确表示查询文档概念的词项不一定就能有好的奇询效果。在ff*IDF中,自动加权 方法是给出现在文档中的每个检索词项加权值:呱t).109(N/玎t))。这里N是检索的总文档 数,f(0是用词项t检索到的文档数,埘t)是检索到的文档中词项t出现的次数。即词项t在一 个文档中出现次数越多,权值越大:含词项t的文档越多,权值越小。因此,如果一个词项应 用得太广泛.即使它的概念反映,文档的内容.也不一定能用这个词项检索到需要的文档。 比如.用户想用“database”检索数据库理沦方面的文章,这个词当然是很准确的,但从返回 的数十万个结果中不太容易得到满意的结果:因为“database’广泛地运用于计算机科学、化 学、地学、商、陛、企业、政府等各个学科和组织,所以各种类型的文档中都出现这个词。 增加查询词项也4i一定能得到满意的结果。扩展词项必须与查询词项相关,否则就改变 了用户的查询要求,但主题相关的词项常因共存于一文档而不保证改善查询结果.我们举 tf*IDF为例。设文档d.(1≤i≤n,11为所有:£档数)的检索词项加权矢量为:“h乜,…自。., t.h.,t。),词项tj和tk一般一起出现在文档中,即t。k/t.,。C,C为一常数。当用户用词项≈ 查询时,查询矢量为:(0,,I…,0),即第i项为J,其余项皆为0。匹配查询即计算查询矢 量与文档矢量

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档