- 2
- 0
- 约 5页
- 2017-08-19 发布于安徽
- 举报
第32卷第2期 江西师范大学学报(自然科学版) V01.32No.2
OFJIANGXINORMAL
2008年4月 JOURNAL I『NⅣERSⅡ.Y(NAll瓜AI.SCIENCE)舾.2008
文章编号:1000-5862(2008)02-0179-05
基于两级概念格的信息抽取的研究
仲兆满1,一, 刘宗田1
(1.上海大学计算机科学与工程学院,上海200072;2.连云港师范高等专科学校计算机系,江苏连云港222006)
摘要:该文提出了结构关键词的概念,给出了结构概念格和内容概念格的形式化描述.结构概念格是对
文档语义段的逻辑存储,内容概念格是对文档内容信息的逻辑存储.开发了一个基于文档的结构和内容
构造两级概念格的信息抽取的实验系统.实验表明,该方法对减少信息抽取的时间和提高信息抽取的精
度有显著的效果.
关键词:结构关键词;结构概念格;内容概念格
183
中图分类号:TP 文献标识码:A
Ⅲ信息抽取的研究历史可追溯至20世纪60年代….近年来,信息检索研究的重点是期望能够通过对句
子、段落以及整篇文档的逐级理解,提高信息检索系统的性能指标.在调查和分析大规模语料的基础上,用
统计学的方法处理自然语言已经成为NLP的主流【2J.在基于概念格的信息检索模型研究中比较有代表性的
Latticebased
Ranking模型L3J,该模型将文档.特征词矩阵转化为一个概
是Carpineto和Romano提出的Concept
信息检索技术,以便于从分布于多个文档的片断信息中自动收集答案倒5.
袁毓林[6]6指出,除了论元结构知识之外,篇章结构和逻辑结构知识对信息抽取也有十分重要的作用.目
前已有的信息检索模型都缺乏对文档结构的语义理解,导致检索时间消耗大,信息抽取的结果不够精确.本
文论述的文档结构是指一篇文章在语义上的相对独立性,根据其独立性进而划分为若干语义段.每个语义
段都叙述了与其它语义段相对独立的一个主题,在结构上可以自成一块.为了表示本文中阐述的文档的结
构,提出了结构关键词的概念,进而构造文档结构概念格用于限定信息抽取的语义段范围;为了表示一个语
义段的内容,提出了内容关键词的概念,进而构造内容概念格用于某个语义段的信息抽取.
1查询请求和文档的语义理解
1.1文档的语义理解
文本具有一定的结构,本文将文本结构划分为物理结构和语义结构.物理结构表示文本的组成情况,包
括自然段落、句子和关键词.语义结构表示文本所包含的语义逻辑,语义段落、句子、关键词是它的外部表现
形式.语义段落是表示文本语义的结构单位,它由连续有序的句子组成.
人们在区分段落的时候就是根据段落中出现的能够区分结构的词.结构词是经过规范化的词,在标引
中用以表达文献的逻辑结构,目前还没有这方面的规范词表.作者分析了大量的文档,在语言学专家参与的
情况下,将语义段的结构划分为ll大类型,为每个类型分别构造了结构词表,共包括231个结构词.11大类
型是:下定义型、比较型、特征特点型、发展介绍型、功能型、原因型、事件型、时间型、地点型、人物型、数字
分类型语义段的结构词为:组成、包含、包括、方面、内容、途径、方法、分(分成)、领域、目标(目的)、代、方式、
收稿日期-2007-12-01
基金项目:国家自然科学基金资助项目.
作者简介:仲兆满(1977.),男,江苏赣榆人,工学博士研究生,讲师,主要从事web信息挖掘、智能教学系统的研究.
江西师范大学学报(自然科学版) 20鸺年
举例、列出、分类、因素、要求、部分、类型、种类、划分、级别、层次、档次、阶段、代、经历、历程、过程.如文章
较型;(2)特征特点型;(3)包含分类型;(4)包含分类型;(5)特征特点型.
内容关键词是从文献的篇名、摘要或正文中抽取的,在表达文献内容方面具有实际意义的可起关键作
用的词汇.内容关键词是一种非标准化的自然语言,它不受词表的限制
您可能关注的文档
最近下载
- 制造业信息化战略规划实施与优化-PDM.docx VIP
- 那智不二越机器人flexgui toolbox操作说明书.pdf VIP
- 智慧工厂-智慧工厂解决方案.docx VIP
- 高中化学解题方法归纳:和量法.doc VIP
- 译林牛津新版高中英语(必修1-3)单词表.pdf VIP
- 包装有限公司分切机安全风险分级清单.docx VIP
- 重庆市西南大学附属中学2025届高三下学期二诊模拟考试物理试卷 含解析.docx VIP
- 【高中英语】《星火英语同步词汇》抗遗忘速记手册.docx VIP
- 成都市锦江区2026届初三一诊(暨期末考试)数学试卷(含答案).docx
- 三坐标 培训教程.pptx VIP
原创力文档

文档评论(0)