北京语言大学计算机系语言信息处理研究所当前研究工作介绍研究.pdf

北京语言大学计算机系语言信息处理研究所当前研究工作介绍研究.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北京语言大学计算机系语言信息处理研究所 当前研究工作介绍 宋柔 (北京语言大学计算机系语言信息处理研究所,100083) E-mail:.sonx—rou(一,,blcu.edu.cn 摘要:本文介绍北京语言大学计算机系语言信息处理研究所近来的研究工作,包括百科辞典 知识提取,文本按语体分类,面向语言教学研究的汉语语料库检索工具,分词和简单短语归 并. 、 关键词:知识提取;文本分类;语料库检索;分词;简单短语 1.百科辞典知识提取 本课题研究百科辞典的知识提取,处理对象是《中国大百科全书》(光盘版),采用的方 法是:(1)根据词目确定题材类别,根据题材类别确定知识提取的目标;(2)建立基于词汇 语义的形式系统,用词语模式匹配的方法提取知识。本文介绍了相关研究的一些实验,测试 结果证明这一方法是有效的。 1.1.百科辞典词目按题材的分类 为了提取知识的方便,首先需要把按领域分卷的《中国大百科全书》中的词目进行分类。 这里所说的词目的类别,不是按专业领域划分,而是按题材划分的。比如,人物和概念 是不同的题材。《中国大百科全书》美术卷中人物“徐悲鸿”释文与数学卷中人物“华罗庚” 释文的风格相似,所表达的信息内容的类型十分接近,但与同在美术卷中概念“油画”的释 文风格和信息内容的类型完全不同。 题材的异同取决于词目的语义类。所有类别的释文第一句话总是对于词目给出一个概括 性的说明,指出它的最重要的特征,如人物的国籍和历史地位,行政区划的行政隶属和政治 经济地位,动物的目科属种等。第一句话以后,不同语义类的释文有不同的信息内容。比如, 人物的释文包括人物的生卒时间和地点、生平事迹、主要成就等,行政区划的释文包括该地 区的面积、人口、沿革、地形、气候、经济、特产、名胜等,动物的释文包括动物的体形、 各部位的形状大小颜色、分布区域、生活习性、繁殖方式、与人类的关系等。 从百科辞典知识提取的使用目标出发,我们目前采用的词目分类系统中的大类是人物、 行政区划、自然地理、动物、植物、机构组织、事件、装置、其他。之所以采用这样的分类 体系,一是因为这些类的词目和释文有比较明显的特征,知识抽取相对容易;二是因为这些 类在整个百科辞典中所占比重较大,词目较多,有条件使用统计方法进行信息提取。有些大 类下面还要分小类,如自然地理类中包括山脉、河流、湖泊、沙漠、岛屿等等,目的是使同 类释文的信息特征更加一致。 我们的试验说明,仅根据词目的用字构成和词目释文的首句用词,就可以对于百科辞典 词目的主要题材类别进行分类,准确率和召回率可达到实用要求。对于某些类别,比如机构 名和中国地名,则仅使用词目后缀就能达到相当好的识别效果,其原因是汉语后缀成分与语 义类别紧密相关。 1.2.面向百科辞典释文知识提取的基于词汇语义属性的形式系统 65 理论上说,要完全准确完备地提取文本中的信息,应当对于文本作彻底的理解。但是, 由于自然语言的复杂性,这个目标是不可能实现的。有人希望通过句法分析来提取信息,实 际上也不能取得成功。一是因为仅有句法结构还不足以排除掉自然语言中的歧义,二是句法 分析本身太困难,对于大规模真实语料的句法分析正确率远未达到实用水平。为此,我们只 得把目标降低,以便使用相对简单而成熟的技术做知识提取工作。 我们把处理对象限定为行文规范的百科辞典,并且目前只提取比较易于形式化的信息。 我们的基本思想是:建立起一个基于词汇语义的属性和关系的形式系统,其中的属性和关系 同欲提取的信息紧密相关;使用属性匹配的方法在线性词串中提取信息。 我们首先做的是中国行政地名词目释文中面积信息的提取。为此,我们从实例中提取了 一个基于词汇语义属性的形式系统,它的内容包括: 概念: 行政区划xq,往往是当前词目本身,也可能是当前词目所代表的行政单位的上级单位。 词目替代词td,包括“省境”、“全省”、“市境”、“全市”、“区境”、“全区”、“县境”、“全 县” ,

文档评论(0)

精品课件 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档