基于两级概念格的信息抽取地研究.pdfVIP

  • 2
  • 0
  • 约 5页
  • 2017-08-19 发布于安徽
  • 举报
第32卷第2期 江西师范大学学报(自然科学版) V01.32No.2 OFJIANGXINORMAL 2008年4月 JOURNAL I『NⅣERSⅡ.Y(NAll瓜AI.SCIENCE)舾.2008 文章编号:1000-5862(2008)02-0179-05 基于两级概念格的信息抽取的研究 仲兆满1,一, 刘宗田1 (1.上海大学计算机科学与工程学院,上海200072;2.连云港师范高等专科学校计算机系,江苏连云港222006) 摘要:该文提出了结构关键词的概念,给出了结构概念格和内容概念格的形式化描述.结构概念格是对 文档语义段的逻辑存储,内容概念格是对文档内容信息的逻辑存储.开发了一个基于文档的结构和内容 构造两级概念格的信息抽取的实验系统.实验表明,该方法对减少信息抽取的时间和提高信息抽取的精 度有显著的效果. 关键词:结构关键词;结构概念格;内容概念格 183 中图分类号:TP 文献标识码:A Ⅲ信息抽取的研究历史可追溯至20世纪60年代….近年来,信息检索研究的重点是期望能够通过对句 子、段落以及整篇文档的逐级理解,提高信息检索系统的性能指标.在调查和分析大规模语料的基础上,用 统计学的方法处理自然语言已经成为NLP的主流【2J.在基于概念格的信息检索模型研究中比较有代表性的 Latticebased Ranking模型L3J,该模型将文档.特征词矩阵转化为一个概 是Carpineto和Romano提出的Concept 信息检索技术,以便于从分布于多个文档的片断信息中自动收集答案倒5. 袁毓林[6]6指出,除了论元结构知识之外,篇章结构和逻辑结构知识对信息抽取也有十分重要的作用.目 前已有的信息检索模型都缺乏对文档结构的语义理解,导致检索时间消耗大,信息抽取的结果不够精确.本 文论述的文档结构是指一篇文章在语义上的相对独立性,根据其独立性进而划分为若干语义段.每个语义 段都叙述了与其它语义段相对独立的一个主题,在结构上可以自成一块.为了表示本文中阐述的文档的结 构,提出了结构关键词的概念,进而构造文档结构概念格用于限定信息抽取的语义段范围;为了表示一个语 义段的内容,提出了内容关键词的概念,进而构造内容概念格用于某个语义段的信息抽取. 1查询请求和文档的语义理解 1.1文档的语义理解 文本具有一定的结构,本文将文本结构划分为物理结构和语义结构.物理结构表示文本的组成情况,包 括自然段落、句子和关键词.语义结构表示文本所包含的语义逻辑,语义段落、句子、关键词是它的外部表现 形式.语义段落是表示文本语义的结构单位,它由连续有序的句子组成. 人们在区分段落的时候就是根据段落中出现的能够区分结构的词.结构词是经过规范化的词,在标引 中用以表达文献的逻辑结构,目前还没有这方面的规范词表.作者分析了大量的文档,在语言学专家参与的 情况下,将语义段的结构划分为ll大类型,为每个类型分别构造了结构词表,共包括231个结构词.11大类 型是:下定义型、比较型、特征特点型、发展介绍型、功能型、原因型、事件型、时间型、地点型、人物型、数字 分类型语义段的结构词为:组成、包含、包括、方面、内容、途径、方法、分(分成)、领域、目标(目的)、代、方式、 收稿日期-2007-12-01 基金项目:国家自然科学基金资助项目. 作者简介:仲兆满(1977.),男,江苏赣榆人,工学博士研究生,讲师,主要从事web信息挖掘、智能教学系统的研究. 江西师范大学学报(自然科学版) 20鸺年 举例、列出、分类、因素、要求、部分、类型、种类、划分、级别、层次、档次、阶段、代、经历、历程、过程.如文章 较型;(2)特征特点型;(3)包含分类型;(4)包含分类型;(5)特征特点型. 内容关键词是从文献的篇名、摘要或正文中抽取的,在表达文献内容方面具有实际意义的可起关键作 用的词汇.内容关键词是一种非标准化的自然语言,它不受词表的限制

文档评论(0)

1亿VIP精品文档

相关文档