- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能信息技术基础-11信息检索
信息检索技术Information Retrieval Technique 封筠 Email:fengjun7171@ :6621/ User: Student.feng 08-05 Outline 一、信息检索技术基础 二、WEB信息检索——搜索引擎 三、图像检索技术 WEB信息检索——搜索引擎 一、WEB信息检索简介 二、搜索引擎总体介绍 三、爬虫技术介绍 四、中文分词和排序算法介绍 一、 WEB信息检索简介 1、背景 2、 WEB信息特点 3、 WEB的信息组织 4、 WEB信息的检索方式 5、 WEB信息检索系统的分类 6、 WEB信息检索系统现状及展望 1、 背景 WEB是因特网上信息组织的一种重要方式。 WEB信息资源是指在超文本(hypertext)传输协议HTTP的基础上,采用超文本、超媒体(hypermedia)技术,将文本、图像、图形、声音以及视频集成在一个页面上,并以直观的图形用户界面提供信息的资源形式。 WEB自1990’s来,因其使用简单、功能强大,因而迅速发展,成为最丰富的网络信息资源形式。 1、 背景 WEB已经成为有史以来最大的信息库,并且其内容仍在以指数级增长。 信息发布技术简单易用-信息检索技术滞后 问题:信息过载 用户:怎样找到我想要的信息? 从研究角度,我们需要研究这样一个信息系统,它能够高效、准确地从WEB数据中查找用户需要的信息、并以有效的形式呈现给用户。 2、 WEB信息特点 大规模:全球网页数量过百亿 分布性:通过TCP/IP、HTTP等协议相互链接,将某一主题的相关信息联系在一起。这些信息可以在一个服务器中,也可分布在全球各地的不同站点上。如何将各处的信息搜集起来,如何对这些信息建立索引以满足分布信息的实际需求。 无结构性:WEB页面本身是非结构化的(或半结构化的),而网页中包含的多媒体数据更是复杂类型的非结构化数据。需要对其进行资源定位和基于内容的方法分析,以便进行检索 2、 WEB信息特点 动态性:在WEB上可随时方便地、迅速地将信息放到网上,还容易地删除、移动信息,因此信息总是处于高度动态变化的状态。需要考虑对已经建立好的索引或者已经结构化好的多媒体数据按照需要进行动态更新。 非规范性: WEB的开放性和用户的随意性使得信息资源的质量无法得到保证,其中包含了低劣的内容以及拼写错误等噪声。 3、 WEB的信息组织 采用浏览器/服务器(Brower/Server)结构。 主要用以下协议和标准定义: (1)URI(uniform resource identifiers)/URL(uniform resource locators):统一资源描述符/统一资源地址。 (2)HTTP(hypertext transfer protocol):超文本传输协议。 (3)HTML(hypertext markup language):超文本标记语言。 WEB使用这些协议和标准进行信息定位、信息存取和信息显示。 3、 WEB的信息组织 4、 WEB信息的检索方式 基于超链的信息浏览 通过超文本/超媒体链来浏览因特网,检索感兴趣的信息。如电子出版物等。方便快捷、偶然片面、事先知道URL、效率低、易中断 基于目录索引的信息查询 根据信息的主题将网上资源分类,以目录的树状形式组织和表现。 基于搜索引擎的信息检索 用户通过浏览器输入查询请求,搜索引擎在事先建立的索引库中检索,然后向用户提供用户感兴趣的信息所在的网址。中文搜索引擎指南网(/)中介绍了目前主要的一些中英文搜索引擎。 5、 WEB信息检索系统的分类 搜索引擎与目录索引 元搜索引擎(meta search engine) 信息检索代理 5、 WEB信息检索系统的分类 5、 WEB信息检索系统的分类 5、 WEB信息检索系统的分类 5、 WEB信息检索系统的分类 5、 WEB信息检索系统的分类 5、 WEB信息检索系统的分类 5、 WEB信息检索系统的分类 5、 WEB信息检索系统的分类 5、 WEB信息检索系统的分类 6、 WEB信息检索系统现状及展望 面向WEB的信息检索系统 基于robot的搜索引擎: Google、altavista、baidu、tianwang 基于目录的搜索引擎: Yahoo、sina 元搜索引擎(metasearch): Metacrawler、Savvysearch 信息检索Agent: WebWatcher、Fab、 CopernicAgent 6、 WEB信息检索系统现状及展望 WEBIR系统现存的问题 检索手段单一、信息需求难以表达 返回结果不相关、质量低 返回结果展现方式单调 6、 WEB信息检索系统现状及展望 WEBIR系统如何
您可能关注的文档
最近下载
- 国际商法 第四版 配套课件.ppt
- SYT 6270-2017 石油天然气钻采设备 固井、压裂管汇的使用与维护.docx VIP
- 2025年中考数学压轴训练:二次函数的图象与性质大题 (五大题型)教师版.pdf VIP
- 北大荒集团估值报告书.pdf
- 2025广东广州市黄埔职业技术学校招聘临聘教师4人考试备考试题及答案解析.docx VIP
- 估值报告书.PDF
- 2025年中考数学二轮压轴题型突破课件:含参数的二次函数问题-最值与取值范围问题.pptx VIP
- TCPIA 0112—2025《户用光伏发电系统全生命周期安全管理规范》.pdf
- 国家级生态农场申报表.docx VIP
- 住院病人健康教育技巧ppt课件.pptx VIP
文档评论(0)