基于web的地图搜索引擎设计以及实现.pptVIP

基于web的地图搜索引擎设计以及实现.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于web的地图搜索引擎设计以及实现.ppt

* 基于web的地图搜索引擎设计与实现 乐小虬 中国科学院遥感应用研究所网络部 2004-01-13 提纲 文本搜索技术 图像搜索技术 系统性能评价指标 地图搜索原理 系统实现与测试结果 问题与展望 1.文本搜索技术 1.1概念 搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。 1.2分类 三类:目录式搜索引擎、机器人搜索引擎、元搜索引擎 1.2.1目录式搜索引擎 以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。 1.2.2机器人搜索引擎 由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:天网、悠游、OpenFind等。 1.2.3元搜索引擎 这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。 1.3主 要 技 术 一个搜索引擎由搜索器、索引器、检索器和用户接口等部分组成。 流程 Web空间划分 起始URL集合 用户接口 循环搜索 检索器 广度优先、深度优先 索引库 索引器 分析器 网页库 2.图像搜索技术 2.1工作原理 为在web上浏览过的图像建立索引信息,能够进行图像分析和判别,为图像加注释,存储抽取出的索引信息建立索引库。 图像的获取 : (1)自动查找图像文件 可以通过两个HTML标签,即IMG SRC和HREF来检测是否存在可显示的图像文件。搜索引擎通过检查文件扩展名来判断其导向的是否是图像文件。如果文件扩展名是.GIF或.JPG,即是一个可显示的图像。 (2)人工干预找出图像并进行分类 由人工对网上的图像及站点进行选择。这种方法可以产生准确的查询体系,但劳动强度太大,限制处理图像的数量。 2.2.3基于图像内容的检索 由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库,用户只需将要查找的图像的大致特征描述出来,就可以找出与之具有相近特征的图像。这是一种基于图像固有属性的机械匹配,特别适用于检索目标明确的查询要求(例如对商标的检索),产生的结果也比较准确。目前这种较成熟的检索技术主要应用于图像数据库的检索,在基于web的图像搜索引擎中应用这种检索技术虽还具有一定的困难 . 3.系统性能评价指标 性能参数:召回率(Recall)、精度(Pricision)。 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是搜索引擎的查全率; 精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是搜索引擎的查准率。 难两全其美,常求精度。 4.地图搜索原理 采用文本搜索和图像搜索相结合的方法。主要通过分析网页中与地图相关的文本信息、视图信息来搜索和判别地图网页。 基本流程: 网页搜索 分析 中间结果 索引库 重组 查找 用户接口 网页搜索 采用元搜索引擎的基本原理。搜索所有与地图相关的网页,并超链保存至本地库中。同时搜索目录式搜索引擎的分类结果。 超链分析 分析超链中是否含有与地图有关的文本串(如地名,单词,后缀等)来确定权重。 视图分析 通过统计分析确定视图参数。 索引生成 重组结果,剔除重复超链,生成地名索引库。 地图检索 通过地名检索所有相关地图网页。 5.系统实现与测试结果 平台 PC:cpu2.4G,RAM528M OS:win2000 DE:VS .net 运行线程 20 测试范围 中国各省市 结果

文档评论(0)

youngyu0329 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档