信息检索第一讲概述课件.pptVIP

下载本文档

2
0
约7.79千字
约 18页
2018-05-26 发布于河南
举报
版权申诉

信息检索第一讲概述课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

An Introduction to Database Systems 第一讲概述结构化与非结构化数据的检索信息检索现状信息检索系统一般结构本课程主要研究内容信息检索技术研究与应用面临的主要困境信息检索系统的评价准确率和召回率准确率和召回率计算示例平均准确率已检出相关文档的平均准确率均值 P@10准确率和 R准确率准确率直方图调和均值与E均值评价指标面向用户的评价方法国内外信息检索评测主要的搜索引擎主要的学术文献数据库检索系统 1 教材介绍：比较经典的数据库教材第一版中国最早的数据库教材，为众多高校计算机专业采用 2. 萨老师介绍创建信息系，最早系主任中国的C J, Date 3 王老师介绍 4 数据库所介绍信息检索：即从一堆东西（集合）中找到用户所需要的（子集）。蕴含的问题是：这堆东西是什么？存放在哪里？怎么存放？怎么找？例如：汉语字典 1、是什么？所有汉字及其解释。 2、在哪里？印刷在纸上。 3、怎么存放？按汉语拼音顺序存放。 4、怎么找？ (1) 建立一个汉语拼音的索引。 (2) 建立一个偏旁部首的一级索引，再建立一个笔划数目的二级索引。可见，索引既是一种结构，也是一种查找（检索）方法。且是重要的环节。 5、一些特殊的汉字如何处理？建立一个难索字表。亻宀 … 四画价优 … （正文内容）我们所讨论的是计算机（数字设备）上存储的数据（信息）如何检索的问题。蕴含的问题是：数据从哪里来？如何存放？如何查找？目前，解决该问题的成熟、流行和高效的方法是建立数据库系统。 1、数据库存放数据要求是结构化的，即关系表。这就是如何存放的问题。 2、数据库检索数据的方法是SQL。这就是如何查找的问题。 select sno, sname, sage from student where sage 18 and sdept = ‘CS’ 数据库技术较难解决的问题： 1、若数据是一些文本呢？如一段文字，甚至是一本书。而这些的文本众多。 2、若数据是许多图片、音频、视频呢？这些统称为多媒体数据。这些数据的特点是：海量、难以结构化（称非结构化数据）。目前，信息检索一般是指从非结构化的信息集合中找出与用户需求相关的信息。 1、商业成功案例：网络搜索引擎 (1) 如谷歌、百度等等。出现了新的商机，出售关键词。 (2) 商业竞争的背后是科技实力、创新思维的竞争。 (3) 搜索引擎的关注者：企业：是否投入广告。网站经营者：如何使自己的网页排在搜索结果前面。普通网民：搜索所需信息。学者：研究其原理、实现方式、如何高效而准确、拓宽应用。 2、应用效果不理想。主要原因是理论基础不完善。 3、你还能想到什么应用？（这往往意味着新的商机）手机短信检索：可用于监控。论文比对系统：判别论文的抄袭现象。自动问答系统：替代人工问答，企业咨询自动化。企业内部信息搜索：可做到较为精准，提供决策支持。指纹、人脸识别系统：属图像检索，为公安侦破提供帮助。浏览器网页内容过滤：防止浏览到不良信息，为家长解决后顾之忧。这里的文档是一个较为宽泛的概念，它可以是一篇文章，甚至一本书，也可以是一个自然段，或一句语，甚至是一幅图像，等等。即作为被检索的一个逻辑单元。如在网页检索中，一个网页即可做为一个文档。用户查询接口搜索引擎数据源获取预处理/结构化特征库索引网络文档集对于特征库，这里蕴含的问题是文档的特征是什么？如网页文本内容的特征是什么？指纹图像的特征是什么？等等。以 Internet 网页检索为应用背景，主要研究文本数据的组织与检索方法，简单介绍图像检索问题。具体涉及以下主要内容： 1、数据的获取：即如何抓取网页及提取文本内容。 2、文本特征的提取：即如何进行中文切词。 3、特征数据的组织：即索引的建立问题，也是数据结构问题。 4、检索的方法：即各种检索模型的研究。 5、简单介绍图像特征及检索的初步问题。 6、为实现上述过程所涉及的技术细节。课程最终目标：能独立完全一个简单的文本检索系统。实验安排： 1、网页的抓取和超链接提取 2、中文切词 3、基于向量空间模型的实现 1、数据海量。这加大了检索准确性和效率的难度，甚至形成一对矛盾。 2、数据不断更新。体现在数据不断消失的同时，还不断增加。这为检索系统文档集的实