wd-第3章信息检索技术.pptx

wd-第3章信息检索技术

第三讲 信息检索技术;本章重点;3.1 信息特征、检索语言与检索途径 ;3.1.1检索语言与信息特征 ;a.一般,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。以前的研究表明,无论哪一种类型的文献,若对文献中出现的词进行频率统计的话,会发现所有的词可分为三类 i.文献中出现频率最高的词是冠词、介词和连词等,即其本身没有具体含义的词,如a、an、the、this、that、or、and、in、on、with等; ii.绝大部分词在文献中出现的频率较低; iii.在文献中出现的频率既不高也不低的词,在文献中约3-20个之间,这些词恰恰是与文献的主题相关度较大的词,我们称之为文献的主题词或关键词。;b.另外,一篇文献还可以按照各种自然科学和社会科学的分类方法进行归类,如《中图法》: O 数、理、化 O1 数学 O12初等数学 O123初等几何 ;特征;3.1.2检索语言;不同的检索语言构成不同的标目及其索引系统,提供各种检索点。 ;人工语言 (规范语言) 和自然语言(非规范语言);分类语言和主题语言; 它是用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列,包括它等级体系分类语言,又称等级列举式分类法或体系分类法。体系分类法主要应用概念划分与概括的方法,具有列举式类目、分类符号(标识)、等级制结构、直线性序列等特点。 ?

文档评论(0)

1亿VIP精品文档

相关文档