信息检索期末复习资料.docVIP

下载本文档

11
0
约 7页
2015-08-06 发布于安徽
举报
版权申诉

信息检索期末复习资料.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息检索名词解释索引（P150）：索引是将书籍、期刊等文献所刊载的论文题目、作者，以及所讨论的或设计的学科主题、名词术语、所引用的参考文献等，根据一定的需要，经过分析分别摘录出来，注明其所在书刊的页码，按一定的原则和方法排列起来的一种检索工具。回溯检查法：又称追溯法、引文法、引证法，是一种跟踪查找的方式。即以文献后面所附的参考文献为线索，逐一追溯查找相关文献的方法。通过回溯法所获得的文献有助于对课题的主题背景和立论依据等内容有更深的理解。该方法获得文献针对性强、数量较多，在没有检索工具或检索工具不齐备的情况下，利用此法能够获得一些所需要的文献资料。可视化：将数据库中不可见的语义关系以图像的形式可视化显示，并表达用户检索过程。一个可视化的环境为用户展示更丰富、更直观的信息，一个透明的检索过程使检索更容易、更有效。它包括检索过程的可视化和检索结果的可视化。可视化信息检索技术缩短了用户理解信息的时间，提供了感觉和思考之间的有效反馈机制，它代表着信息检索的未来，将会取代以布尔逻辑为基础的、传统的信息检索系统。自动标引：是指直接通过计算机的操作处理，自动实现赋予检索标志的活动。分为自动主题标引和自动分类标引，即根据计算机内信息（标题、摘要或全文），借助算法自动给出反应主题内容的标引词和自动分配分类号。全文扫描：是以从文本文档中找出与查询表示的字符串完全一致的部分为目的，检索结果返回包含查询字符串的文本及其位置的检索技术。查全率：查全率是指从检索系统检出的与某课题相关的文献信息数量与检索系统中实际与该课题相关的文献信息总量之比。对于数据库检索系统，查全率为检索出的款目数与数据库中满足用户检索式需求的款目数之比；而对于互联网信息检索系统来说，文献总量是很难计算的，甚至连估算都困难。在这里人为因素的影响比较大。相对查全率=(专业人员检出文献的数量数/全部实际检出文献集合并集中文献数量) *100% 图像信息抽取：是指从数字图像中抽取包括基于文本的特征（说明，注释等关键词）和视觉特征或底层特征（颜色，文理，形状等），作为图像的特征描述，支持信息检索。信息过滤：是指根据一定的标准运用一定的工具从动态的网络信息流中选取用户需要的信息或剔除用户不需要的信息的方法和过程。信息过滤的依据是信息与用户信息需求的相关性。逻辑算符：又称布尔逻辑算符，是利用布尔代数中的逻辑运算符来描述检索词之间的关系。逻辑算符的作用是把若干飞检索词或词组连接起来，构成一个检索式的基本框架，指定文献的检索词必须出现或不出现的条件。常见的有三种，逻辑与（AND或*）、逻辑或（OR或+）、逻辑非（NOT或-）。其功能是将代表单一概念的一些检索组配起来形成检索式，表达一个信息的整体概念。元搜索引擎：通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作，是对分布于网络的各种检索工具的全局控制机制。分析判断题从狭义角度讲，信息检索包括的过程。情报的检索（工具）（从信息集合中找出信息的过程，相当于人们通常所说的信息查询）；存储和检索；表示、存储、组织、存取系统中的高频词在检索中所起的作用。自动标引的含义。自动标引是指直接通过计算机的操作处理，自动实现赋予检索标志的活动。分为自动主题表扬你和自动分类标引，即根据计算机内信息（标题、摘要或全文），借助算法自动给出反应主题内容的标引词和自动分配分类号。加权表达式的使用。加权检索不重在判定检索词或字符串是否在数据库中存在，与别的检索词或字符串是什么关系，而在于判定检索词或字符串在满足检索逻辑后对该记录命中与否的影响程度。它的基本方法是：在每个检索词后面给定一个数值，表示其重要性程度，这个数值称为权值。在检索时，先查找这些检索词在数据库记录中是否存在，然后计算存在的检索词的权值之和。只有当数据库记录的权值之和达到或超过预先给定的阈值时，该记录才算命中。加权检索只需接触检索词，不需编制提问逻辑式。通过加权，明确了各检索词的重要程度，使检索更有针对性，并且能依据权值的大小，对命中记录的重要性进行排序；加权检索主要有两个方面的作用：A可获得较理想的查全率和查准率B可以输出时对档案进行排列；在加权检索中则采用数字或加权符号进行匹配；加权检索可以按照用户的提问要求。对各检索项分别赋予不同的权值，检索时将其结果按权值大小排序输出；加权检索方法称为定量检索方法截词检索算符的逻辑关系。词干加截词符号，对该词各种词性的完整词进行检索；截断部位（前方一致、后方一致、中间一致、中间不一致）；截断字符数量（有限截词、无限截词）检索语言指信息检索过程中涉及哪类语言。（自然语言-关键词、题名、标题、全文…）、人工语言-分类检索语言…；专业语言；受控语言；体系分类语言（分类检索）、