《信息检索》第2讲信息检索的基本知识4.pptVIP

下载本文档

9
0
约3.63万字
约 268页
2017-06-27 发布于北京
举报
版权申诉

《信息检索》第2讲信息检索的基本知识4.ppt

1、本文档共268页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

（4）通过新闻组搜索 * * 网上有成千上万个新闻组（Newsgroup），按照学科类别分为多种专题，每个新闻组大多围绕着本领域的研究进行讨论，每天的信息量多达上百甚至上千条。时时跟踪新闻组动态，是了解学科前沿和热点问题最便捷的路径。新闻组(英文名Usenet或NewsGroup)，就是一个基于网络的计算机组合，这些计算机被称为新闻服务器，不同的用户通过一些软件可连接到新闻服务器上，阅读其他人的消息并可以参与讨论。网上除了有大量的专题新闻组外，还有许多规模较大的电子论坛，如：BIOMOO (http://bioinformatics.weizamann.ac.il/BioaMOO)，有各国上千名生物学家参加。 Newsgroup新闻组的作用—— 新闻组、电子论坛等为各领域专家学者提供了一个虚拟交流空间，是获取学科发展最新信息的重要渠道。 / * * （5）通过大型专业数据库搜索 * * 与网络上其它资源相比，数据库资源具有不可替代的优势：数据资源稳定，收录时间跨度大，可方便进行回溯检索；数据质量高，很多数据库就是由一些大型文摘、索引刊物出版商以及一些科研机构、图书馆等机构开发研制的。如：各图书馆的OPAC，可提供书目查询；国外的OCLC、CA、EI、BA等提供题录、文摘以及全文信息检索；还有我国的万方数据库、中国学术期刊数据库（即清华同方数据库）、维普数据库等等，这些数据库数据资源质量高、内容涵盖广且定期更新。因此，查阅数据库资源是进行科学研究的重要信息源。（6）通过e-mail搜索 * * 有时用户急需查找一些网上资源，不知道资源的确切地址URL，利用Agora WWW－mail服务器，可以向其发送一个E-mail，就可以找到所需信息的资源地址（URL）。以下是一些 WWWmailserver地址：????agora＠dna.affrc.go.jp????agora@????agora@mx.nsu.su????agora@ 通过Agora WWW-mail服务器查询的程序是，将要找的内容以关键词的形式（命令语句Send）送给一个WWW邮件服务器，服务器会把找到的与关键词内容匹配的URL地址以邮件的形式送回用户邮箱，然后按照地址查找所要的信息。实际上，Agora WWW-mail服务器起到了搜索引擎的作用。 /mailman/listinfo * * 网络信息检索的特有途径受网络信息和环境的影响，网络信息检索还有一些特有的途径，用于查询不同语种、非文本、隐形万维网信息以及进行大众检索等。多语种与跨语种信息检索非文本信息检索隐形万维网信息检索大众检索多语种与跨语言信息检索互联网初期-英文网络主导语言 08年6月-英文（29.4%）、中文（18.9%）、西班牙文（8.5%）英文依然是使用最高的语言，但所占比例已大幅下降网络环境下的多语言特性决定了网络信息检索系统也必须提供相应的机制来满足不同用户的需求。网络检索系统从整体而言支持多语种和跨语言两类检索。多语种检索—指用户能从多种语言构成的数据库中检得自己所熟悉的那种语言（检索式和检得结果都用同一种语言表达）跨语种搜索—用户提交的检索式和检得结果使用不同的语言。“如检索式为中文，检索结果为外文” 使用户在仅通晓一种语言的情况下，借助于检索系统提供的翻译机制，获取另一种自己不熟悉的语言的检索结果。非文本信息的检索网络多媒体信息检索可以分为基于描述和基于内容的检索两种。基于描述的网络多媒体信息检索与文本信息检索相似，以对多媒体信息的描述（如作曲家、乐队、图片标题）作为检索点。进行基于描述的多媒体信息检索时，应选择可能出现在多媒体描述信息中的单个关键词作为检索词。基于内容的多媒体信息的检索通过对多媒体信息特征的处理分析，并据此比较检索式和系统所收录多媒体信息之间的相似度，选定检得结果。（音频的音高、图像的像素、颜色、纹理、形状；视频进过切分解析后，分为音频和图像两种信息，再采用相应的方法对其作进一步处理分析）现有网络下基于描述法的占大多数。基于内容的检索研究较少，真正能共用户使用的检索系统更少。基于内容的图像检索CBIR(Content-based Image Retrieval）利用图像本身固有的物理信息，能够对图像的颜色、纹理和形状等特征进行比较，在指纹识别、商标检索和医学图像检索等特定领域得到了广泛应用，因为这些领域的图像在某些特征上容易识别，比如同一个手指的指纹其纹理是一样的。然而，Internet上的图像来自不同的领域，根本无法捕获其共同点，用基于内容的方法对这些图像进行检索，其效果远不能令人满意．隐形万维网检索据研究人员估计，违背标引的网络信息可能高达70%-75%，这些网络信息的集合被统称为隐形