- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
地理信息Web检索系统体系结构、原理及发展.doc
地理信息Web检索系统体系结构、原理及发展
杜 萍,刘 勇
(兰州大学 资源环境学院,兰州 730000)
摘 要:介绍了地理信息Web检索系统的含义、体系结构及基本原理,并重点阐述地理信息检索系统的发展,包括该领域两个重要的研讨会:GIR和GeoCLEF;讨论了地理信息Web检索系统与Google Maps等通用地理类搜索工具的区别,并对一个有代表性的地理信息Web检索系统SPIRIT做了详细说明;指出地理信息Web检索系统目前面临的挑战包括:地理本体的建立,页面地理信息的抽取,空间索引的建立,主题和空间双重搜索模型的运用,搜索结果的排序及搜索结果的地图可视化。
关键词:地理信息Web检索;体系结构;基本原理;GIR;GeoCLEF;SPIRIT
中图分类号:P208 文献标识码:A 文章编号:1001-5221(2010)04-0392-05
Web的不断发展和日益普及使得网上的信息量飞速增长。搜索引擎的诞生为人们有效、准确地获取所需信息提供了很大的帮助。据统计,在人们提交给搜索引擎的查询中,约1/5跟地理信息有关[1]。然而,当人们把带有地理信息的查询提交给搜索引擎后,发现检索结果过于庞大,准确率不高,用户难以快速准确地找到自己所需要的信息。这是由搜索引擎的检索方式决定的。
目前,搜索引擎大多采用传统信息检索方式[2]:基于关键字的检索和基于分类目录的检索。这两种检索方式都无法处理丰富的地理语义和空间关系,例如,对于用户查询“campsites west of Oxford”,搜索引擎将空间关系“west of”当做用户输入的关键字,那些在页面中明确出现“west”却跟用户查询需求相差甚远的网页往往会排在搜索结果的前列,从而导致搜索结果的不如人意。
由此可见,现有搜索引擎的地理信息检索功能是有限的、不完备的,只有开发专门的地理信息Web检索系统才能更加合理、有效地检索Web上大量的地理信息。本文中的地理信息Web检索系统和其他文献中提及的地理信息搜索引擎[3,4]具有相同的含义。
1 地理信息Web检索系统的含义、体系结构及基本原理
1.1 含义
地理信息检索是指在互联网、数据库或数字图书馆等数字资源中检索跟地理位置有关的信息,并对检索结果按某种方式排序。它允许用户把查询限制在一定的地理区域以内或区域附近,构成“带有地理约束的查询”来检索数字资源[5]。“带有地理约束的查询”由用户指定的主题信息和地理信息两部分构成,前者是用户输入的一个或多个关键字,后者通常采用多种表达方式:(1)用户输入的地理信息,包括地名、地理概念(如“城市”、“河流”)、地理位置关系(如“附近”、“以北”)等;(2)用户在地理信息检索系统提供的地图上用鼠标选择一定范围的地理区域或某个具体的地理位置。例如,在带有地理约束的查询“campsites west of Oxford”中,主题信息为“campsites”,地理信息为“west of Oxford”。
跟传统的信息检索系统相比,地理信息检索系统不再把查询中的地理信息当作主题信息对待,而是将其区分开来,以完成主题信息和地理信息的双重检索。本文讨论的地理信息Web检索主要是指检索范围为Web而不是其他数字资源。
1.2 体系结构及基本原理
地理信息Web检索系统通常包括一个网页数据库,一个地理信息词典,一个信息抽取器,一个文本索引数据库,一个空间索引数据库,一个基于主题信息和地理信息的双重检索模块,一个处理地理信息查询的用户界面和一个搜索结果排序模块[6-7],其体系结构如图1所示。地理信息Web检索系统的实现原理,可以分为5个步骤[4,8-9]:从Web上抓取网页→查询处理→建立文本索引数据库和空间索引数据库→检索→对检索结果进行处理和排序。
图1 地理信息Web检索系统的体系结构
Fig 1 Architecture of Geographic Information Web Retrieval
1.2.1 从Web上抓取网页 利用能从Web上自动收集网页的网络采集程序,从给定的起始URL集合开始,沿着网页中的链接按照某种策略遍历Web,不停地从起始URL集合中移除URL,下载相应网页,解析出网页中的超链接URL,看是否已经被访问过,将未访问过的URL加入到起始URL集合中。重复这一过程并把遍历过的所有网页收集到网页数据库中。
1.2.2 查询处理 地理信息Web检索系统接受来自用户的查询后,就结合地理信息词典或地理本体等进行查询歧义去除、查询解释、查询扩展和系统查询生成等查询处理操作,将处理过的查询提交给检索模块,由检索模块完成主题信息和地理信息的双重检索。
1.2.3 建立文本索引数据库和空间索
您可能关注的文档
- 同济大学材料研究方法部分练习题-.doc
- 名著阅读考题分析.doc
- 向下—代网络演进的综合接入技术.doc
- 吹塑机在吹塑时常见的故障分析.doc
- 周三多《管理学》(第三版)模拟期末试卷YT(附参考答案).doc
- 周三多《管理学》――原理与方法.doc
- 周三多《管理学》模拟测试.doc
- 周三多《管理学》第五篇控制.ppt
- 周三多管理学各章复习要点.doc
- 周三多管理学复习.doc
- 2025年马鞍山市公安局第二季度招聘45名警务辅助人员笔试备考题库及参考答案详解1套.docx
- 2025年集美大学招聘高层次人才168人方案笔试高频难、易错点备考题库及参考答案详解一套.docx
- 2025年贵州省残疾人联合会直属事业单位招聘13人方案笔试高频难、易错点备考题库及参考答案详解.docx
- 2025年陕西延安市事业单位招聘430人笔试高频难、易错点备考题库含答案详解.docx
- 2025年邵阳市工业和信息化局所属事业单位选调笔试高频难、易错点备考题库及完整答案详解1套.docx
- 2025年西藏拉萨市事业单位招聘236名高校毕业生笔试高频难、易错点备考题库及答案详解1套.docx
- 2025年贵州遵义市绥阳县事业单位招聘184人笔试备考题库及参考答案详解.docx
- 2025年黑龙江省农垦科学院招聘15人笔试备考题库含答案详解.docx
- 2025年自然资源部第二海洋研究所招聘在职人员笔试备考题库及参考答案详解一套.docx
- 2025年青岛市园林和林业局所属事业单位招聘笔试高频难、易错点备考题库及答案详解1套.docx
文档评论(0)