信息抽取义素研究.docVIP

下载本文档

4
0
约3.03千字
约 8页
2018-08-18 发布于福建
举报
版权申诉

信息抽取义素研究.doc

此“司法”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息抽取义素研究

信息抽取的义素研究　　[摘要]讨论信息抽取的语素角度建设问题。提出从义素角度实现信息抽取的可行性，并通过“义素词库”的建立实现文本信息抽取的一步实现问题。　　[关键词]信息抽取义素范畴义素词库　　中图分类号：H03 文献标识码：A 文章编号：1002－6908（2007）1020054－01 　　　　信息抽取指用计算机自动地从一段文本中抽取出指定的一类信息，并将其形成结构化的数据填入一个数据库中供用户查询和使用的过程。关于信息抽取袁毓林先生从语义的三个方面做了系统的研究：宏观的语篇知识，中观的论元结构知识和微观的逻辑结构知识。通过这三方面知识和统计方法的结合来建立的带有语义关系标注的语料库，为信息抽取做准备。实际上这种做法完成信息抽取进行了两步。这种做法能够解决文本表层大部分的信息提取问题。但是，新文本随时在出现，网络上信息正在以成倍的速度在增长。随着计算机智能技术的不断发展，新需要每时每刻都在提出，对信息抽取的精度和速度要求也在不断提高，而统计的方法永远是滞后的。本文拟从更微观的语义层次义素层来对深层信息抽取从知识的角度做一个探索性的研究，以期达到通过一步运算实现信息抽取的目的。　　　　一、义素可以为信息抽取做什么　　　　（一）义素范畴　　信息抽取是一个对文本意义判断的过程，文本意义归根结底是由词汇承担。我们将其落实到词义的判断这一层次来考察。　　从语义学角度看，词的语义单位分为词义，义位和义素三个层面。词义是指词的所有意义，义位是指词的某个意义。义素，也叫语义特征，是由分析义位得到的。义素是理论分析的结果，是一种不与语音形式相联系的，抽象的语义单位。义素实际上在不同的语义关系中都有区别义位的功能。义位就是一束义素。　　词义具有一定的系统性，词在一定的语言环境中使用时，由于语境的确定性，词义一般是凸显出其一个义位。词义的发展过程，是由这个词在历史上最早出现时的原始意义，通过隐身、扩展、借用等方式发展出许多与本义相关的后起义。由于都是从一个本义出发发展而来的，在一个词的各个后起义之间，必然存在着联系。因此，一个词语的义位同临近的其他义位可以建立起各种关联，从而处于互相依存，互相规定，互相制约的关系之中。　　“语义场”就是这种词义系统性的重要表现，它是借用物理学中的“场”的概念而来的，是指语义的类聚。一个语义场就是一个局部的词义系统，在这个系统中，类属义素划定意义领域被划分成若干块，并分配给不同的词语，这些词语以一种互补的方式对同一意义领域进行反应。　　语义场是依据某一类属义素为标准建立起来的，是具有某一类属义素的词语（义位）构成的聚合体，而这一类属义素是指反映事物所属类别的语义特征。这样，每一个词根据其不同的义素都可以属于不同的语义场，即不同的意义范畴。而这个词的意义正是这些意义范畴的交集。　　例如：（汉语中表同胞的亲属词语义成分矩阵，引自石安石《语义论》）　　这里面，[同胞]、[男性]、[年长]是三个义素，同时代表了三个不同的范畴。“哥哥”是[+同胞][＋男性][＋年长]这三个范畴的交集，“弟弟”是[＋同胞][＋男性][－年长]这三个范畴的交集，“姐姐”是[＋同胞][－男性][＋年长]这三个范畴的交集，“妹妹”是[+同胞][－男性][－年长]这三个范畴的交集。　　（二）信息抽取范畴　　要实现信息的抽取就是要实现对文本意义的判断。而对于要抽取的信息首先得有一个预期，即哪些信息是要提取的，哪些不是。而这一预期要以一个范畴的方式体现出来。即要抽取的信息是属于哪个范畴的。这里正好与我们对义素范畴的说法衔接起来。使信息抽取与义素判断接轨。　　例如，袁毓林先生在其文中举例说明信息抽取的对象是什么：“从一篇关于军事演习的新闻报导中摘录出演习的类型、时间、地点、兵种、武器、装备、假想敌、后勤保障等信息。”对其进行篇章知识，语义关系，句内逻辑关系的标注就是为了在信息抽取时可以更便捷。我们试着从义素判断的角度来思考这个问题。　　就以“时间”、“地点”、“兵种”、“武器”、“装备”、“假想敌”、“后勤保障”为例。就我们对现代汉语文本的观察来看，承担这些信息的都是词语。就是我们前面提到的，对文本进行语义判断归根到底是对词语进行语义判断。承担“时间”这一信息的都属时间范畴，承担“地点”这一信息的都属处所范畴，承担“兵种”这一信息的步兵、骑兵、空军和海军等都属兵种范畴。这样我们进行信息抽取时只需要判断文本中的词语哪些具有这些义素，就可以将其直接抽取出来。　　这种方法将使未进行篇章语义关系标注的文本信息抽取更加便捷。能够提高了信息抽取的效率。　　　　二、需要做的工作建立义素词库　　　　要实现从对义素的判断着手一步实现信息抽取需要一个具有义素的词库的支