基于位置的web搜索索引研究.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于位置的web搜索索引研究

中 国 科 学 技 术 大 学 学 报 J OURNAL O F UNIVERSITY O F S CIEN CE AND TEC HN OL O G Y O F C HINA 第 3 7 卷 第 2 期 2 0 0 7 年 2 月 Vol . 37 ,No . 2 Fe b . 2 0 0 7 文章编号 :025322778 (2007) 0220147206 3 基于位置的 web 搜索索引研究 周英华 ,金培权 ,岳丽华 ,龚育昌 ( 中国科学技术大学计算机科学技术系 ,安徽合肥 230027) 摘要 :针对基于位置的 we b 搜索需要将网页中位置信息和文本信息相结合进行索引的应用需求 , 提出了先倒排表再 R2t ree 索引和先 R2t ree 再倒排表索引两种混合索引结构 ,同时处理文本和位置 信息. 大规模真实数据集上的实验表明 ,这两种方法在查询效率上明显优于已有的倒排表和 R2t ree 相互独立的索引模式 . 关键词 :基于位置的 we b 搜索 ;位置索引 ;文本索引 中图分类号 : T P391 . 1 , T P311 . 12 文献标识码 : A Research on index of location2ba sed web search Z HO U Yi ng2h ua , J IN Pei2qua n , YU E L i2h ua , GO N G Yu2cha ng ( De p a rt ment o f Com p ut e r S ci ence an d Tec h nol o g y , U ni ve rsi t y o f S cience an d T ech nol o g y o f Chi na , H e f ei 230027 , Chi na) Abstract : Fo r locatio n2ba sed we b sea rc h , geo grap hic i nfo r matio n sho ul d be i nde xe d wit h t e xt ual i nfo r matio n . Two hybri d i nde x st r uct ure s were p ropo se d to deal wit h bo t h t e xt ual a nd geo grap hic i nfo r matio n : o ne of i nve r t ed file p recedi ng t he R2t ree a nd o ne of R2t ree p recedi ng t he i nver t ed file . Exp eri me nt s o n la r ge real2wo rl d we b dat a set s sho w t hat t he p ropo sed st r uct ure s ha ve bet t e r que r y p erfo r ma nce t ha n t he e xi sti ng i nde x sc he ma of sep a rat e i nve r t e d file a nd R2t ree . Key words : locatio n2ba se d we b sea rc h ; sp atial i nde x ; t e xt ual i nde x 于位置 we b 搜索中的一个关键问题. 最简单的方式 是先用地名表示位置信息 ,建立类似文本的索引 ,然 后利用关键词匹配的方式进行检索. 这种方式忽略 了基本的空间关系 ,不支持高级的空间查询 ,因此有 必要设计出一种有效并兼顾考虑空间特征和文本特 征的索引结构 . 这涉及两个关键问题 :位置信息的表 示和索引模式 . 相关研究已有一些成果[ 3~7 ] . 网页上有很多位置相关的信息 ,用来索引的只 有大家认为与这个网页最相关的地理区域 ,即这个 网页的地理范围 ( scop e) [ 3 ] . 网页的地理范围可以通 过分析网页的文本内容以及超 链 接的 地理 分 布得 0 引言 互联网中与位置相关的信息越来越普遍 ,统计 表明 ,将近 1/ 5we b 搜索的任务是与特定位置相关 的[ 1 ,2 ] ,如“中关村附近的书店”等 . 越来越多的商业 搜索引擎开始提供位置相关的服务 ,如本地搜索 ,本 地广告和地图服务等. Goo gle 、百度等商业搜索引擎 目前只提供基于黄页或其他付费列表的商业位置的 搜索 ,本

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档