- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6信息组织与编目技术;第6章 信息组织与编目技术;;§6.1.1 信息组织的基本概念;§6.1.1 信息组织的基本概念;§6.1.1 信息组织的基本概念;§6.1.1 信息组织的基本概念;§6.1.1 信息组织的基本概念;§6.1.1 信息组织的基本概念;§6.1.1 信息组织的基本概念;§6.1.1 信息组织的基本概念;§6.1.1 信息组织的基本概念;§6.1.2 信息组织的过程及其内容;§6.1.2 信息组织的过程及其内容;;以计算机自动处理为手段的信息组织自动化程度不断提高,具体表现在以下几个方面:
计算机辅助编制管理分类表和叙词表
电子版分类法和叙词表的研制
分类法和叙词表在联机检索和网络检索中的应用
自动标引和自动分类
自动文摘技术
信息抽取技术;§6.2 自动标引技术;§6.2 自动标引技术 ;自动分类
自动分类标引就是由计算机代替人工,对网络信息进行分类,赋予其分类标识,以描述信息主题内容的过程。
自动抽词
自动抽词标引指使用计算机自动抽取文本资源中表达文献主题的语词作为检索标识。
自动赋词
自动赋词标引是在自动抽词的基础上,根据自然语言词语与检索词对应表,将关键词转换成检索词(规范词),建立倒排索引文档或编制书本式检索工具的工作
自动摘要
即利用计算机自动地从原始文献中提取文摘。;;一般认为,信息资源分类就整体而言包括聚类和归类两个方面。
所谓聚类,是指按照信息资源的特点和使用需要,通过区分和类集建立起类目体系的过程;
所谓归类,是指依据建立的分类体系对信息资源进行组织的活动,一般是根据信息资源的特点,将其分门别类地归入该系统的相应类目,通过这一操作实现对信息资源的分类组织。 ;自动分类标引
自动分类标引就是由计算机代替人工对视音频信息进行分类,赋予其分类标识,以描述视音频信息主题内容的过程。先分析被分类的视音频对象的特征,然后将其与一个分类表或一个分类标准进行比较,最后将被分类的视音频对象划归为特征最相近的一类,并赋予相应的分类号。视音频信息的自动分类目前仍然建立在有文本的基础上的。自动分类一般经过如下几个过程:;§6.2.1 自动分类;;自动抽词标引
自动抽词标引由计算机自动从文本中抽取??或短语来表达信息资源的主题内容。
在手工标引中,标引员一般会尽量选择那些能较好指示信息资源内容的词或短语作为标引词。影响选择时的因素有词语在信息资源中出现的频率、出现的位置、词语的语言环境等。
计算机要完成这项任务,某种程度上需要模拟人类的思维过程。;1. 绝对频率加权法
基本思想是:
计算文献集合中每篇文献中每个不同的词出现的频率;
把每个不同的词在n篇文献中的出现频率相加,得到每个词的集合频率;
按集合频率递减排序,用试错法确定高频词和低频词的阀值,排除高于高频词阀值和低于低频词阀值的词;
对余下的中频词赋予较高权值作为标引词。;绝对频率加权法的缺点
没有考虑选择作为标引词的术语对文献的区分性能。
当以一数据库为范围进行考察时,一些词语虽然在某一文献资源中经常出现,但同时也经常在整个数据库中出现,那么根据这一方法抽取出来的词可能无法很好的区分数据库中的不同文献。这些高频词可能并不具有检索意义,会降低文献的查准率。
例如:在政治新闻数据中,“中国”和“中共”出现的次数很多,但它们并不能很好的区分这个文本集合中的单个条目。而“信访调研”可能出现的次数很少,但它却比“中国”和“中共”这两个词更能区分文本集合中的不同文本。所以,它将是一个很具有检索价值的词。而在使用绝对频率法进行抽词标引时,“信访调研”因为在文本中出现的次数较少,而很有可能被遗漏。为了弥补绝对频率的这种不足,可以采用相对频率法。;2. 相对频率加权法
基本思想:
在一般文献中不常出现的低频词取低值,在专业文献中频繁出现而在特定文献内以低频词出现的词取高值。
为此,首先要建立有关领域全部词汇的相对频率表;
其次,对待标引的文献进行处理,排除停用词,计算每个实词在特定文献中出现的频率;
最后,将每个实词在特定文献中出现的频率与相对频率进行比较。某些词在文献内出现的频率虽然较高,但未达到相对频率表中的规定值,就得被排除;而另一些词尽管在文献中出现的频率较低,但已达到表中的规定值,则被选为标引词。;逆文献频率法
这是一种从词汇区分能力的角度提出的方案。
通常情况下,一个词在文献内容揭示方面的价值与词汇的出现频率成正比,与出现在文献中的文献数量成反比,因为包含该词的文献数量越高,对文献的区分价值就越低。
逆文献法要求在进行词频计算时,结合使用逆文献频率权值:
log(N/n)+1
N为包含该词的文献篇数,n为标引词出现的次数。
;位置法
利用词语在文献中出现的位置来进行选择。
您可能关注的文档
最近下载
- 项目验收方案及验收方案.docx VIP
- 〖CJJ_T305-2020〗跨座式单轨交通限界标准.docx VIP
- 中心静脉血管通路装置安全管理专家共识解读PPT课件.pptx VIP
- 《面向未来的设计DFX》课件.ppt VIP
- 佳能 iR ADV 4525 4535 4545 4551 黑白复印机英文零件手册.pdf VIP
- 佳能 iR ADV 4525 4535 4545 4551 黑白复印机中文维修手册.pdf VIP
- 华镇语音大脑平台VB6824芯片规格书 Datasheet Ver1-1.pdf VIP
- 抗凝药及抗血小板课件.ppt VIP
- 2025公安遴选试题及答案.docx VIP
- 佳能 IR ADV C2030 C2025 C2020 彩色复印机 维修手册.pdf VIP
文档评论(0)