第2章文本信息处理技术概述.pptVIP

  • 18
  • 0
  • 约 93页
  • 2016-11-29 发布于湖北
  • 举报
第三章 文本信息处理技术 第三章 文本信息处理技术 第一节 自动标引技术 一、自动标引的含义 1.自动标引的定义 文献标引:指对所收集的文献给出标识导引,这些标识包括文献标题、作者名、分类号和主题词等。 文献标引作业包括: 文献文本分析; 特征信息(主题词、关键词及其他标识)的提取与描述: 建立索引或倒排档。 自动标引(automatic indexing):“自动标引就是用机器抽取或赋予索引词,一旦编制好程序和规则,就不需要人工干预。” 一、自动标引的含义 2、自动标引的类型 从标引工作的自动化程度来说,自动标引分为: 全自动标引(automatic indexing); 半自动标引(机助标引:Automated indexing)。 半自动标引基本技术实现是: (1)文献纪录(题目等著录项目)键入终端后显示在荧光屏上; (2)操作人员移动光标从题目中抽取关键词; (3)利用人机对话方式输入与标题内容有关的隐含概念词,以保证主题标引的全面性;同时删除计算机程序错误组配的词。 (4)根据词库中的参照系统将关键词转换成标准主题词,进行上位登录。 词库是计算机辅助标引的核心。 从标引词的来源去划分,自动标引分为: 自动抽词标引; 自动赋词标引 一、自动标引的含义 (3)自动抽词标引(自由词标引) 定义:利用计算机直接从文献题名、文摘或

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档