- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语最长名词短语的自动识别.pdf
汉语最长名词短语的自动识别*
周强 孙茂松 黄昌宁
智能技术与系统国家重点实验室
清华大学计算机科学与技术系,北京100084
摘要:本文通过对包含5573 个汉语句子的语料文本中的最长名词短语的分布特点的统计分析,
提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法(算法1)
和基于内部结构组合的识别算法(算法2 )。实验结果显示,算法2 的识别正确率和召回率分
别达到了85.4%和82.3%,取得了较好的自动识别效果。
关键词:最长名词短语,边界识别,句法分析。
1 引言
在自然语言句子的理解过程中,能否准确地识别其中的名词短语(np)起了很重要的作用。
按照认知科学的观点,人类必须首先识别、学习和理解文本中的实体(entity)或者概念(具体的
或抽象的),才能很好地理解自然语言文本,而这些实体和概念大都是由文本句子中的名词短
语所描述的。因此,如果我们掌握了文本中的名词短语,就可以在很大程度上把握文本所表达
的主要意思。
从组成结构上看,句子中的名词短语可分为以下三类: 最短名词短语 :即不包含
1) (mNP)
其他任何名词短语的名词短语;2) 最长名词短语(MNP) :即不被其他任何名词短语所包含的名
词短语;3) 一般名词短语(GNP):所有不是mNP 和MNP 的名词短语。从mNP 到GNP 再到
MNP ,自动识别的难度是在不断增加的。而在自然语言处理领域,MNP 的自动识别具有更为重
要的意义。因为我们一旦很好地识别出了句子中所有的MNP ,就可以很方便地把握句子的整体
结构框架,从而很快构建出句子的完整句法树(森林)。
正是认识到了这一点,近几年来,许多研究人员在MNP 的自动识别方面进行了许多有益
的探索,提出了一些行之有效的识别方法。在英语方面的工作主要有:
的简单名词短语抽取器 ,利用概率矩阵信息来确定句子中 的起始和终止
1) Church [1] np
位置。
2) Bourigault 的术语抽取器LEXTER [2],通过构造两个阶段的自动分析器发现文本中的术
语(即部分MNP )
的 获取工具: ,利用两种有限状态分析机制( 否定机制
3) Voutilainen MNP NPTool [3] NP_
和NP_肯定机制)来发现文本中可能的MNP 。
4) Kuang-hua Chen 等人的工作[4],利用统计分块(chunking)和有限状态分析相结合的方
法来发现句子中的名词短语。
英语MNP 自动识别的难点在于解决各个成分之间的联结(attachment)关系歧义。相比之下,
汉语MNP 的识别则更为困难,这是由汉语句法成分特有的套叠现象[5]所决定的。与英语不同
的是,汉语中的任何句法成分,都可以不经过任何形态变化,只需加上一个结构助词“的”,
就可以充当一个np 的定语1而形成一个更长的np 。这就大大增加了汉语MNP 自动识别的难度。
从这几年来在这方面进行的一些研究实践看,处理效果并不是很理想。主要的研究工作包括:
* 国家自然科学基金资助项目(编号),中国博士后科学基金资助项目。
1 当然前提是两者之间可以存在修饰和被修饰的关系。
1
1) 李文捷等人[6]利用边界分布信息构造概率模型而进行的MNP 自动识别实验,其开放
测试的识别正确率达到了71.3% (在30 篇新闻报道语料中)。
2) Angel S. T. Tse 等人[7]利用统计和规则相结合的方法,构造了名词短语部分分析器,以
发现句子中所有的“的”字名词短语。实验结果为:识别正确率为75% ,召回率为90% (在15
篇汉语文本中)。
您可能关注的文档
- 微波技术与天线王新稳课后答案[1-4章].pdf
- 微波消解方法.pdf
- 微波炉受潮内部零件易受损.ppt
- 微波电路设计技术及其应用特点_涂天杰.pdf
- 微电机转子冲片(有全套图纸).doc
- 德国蔡司HT双筒望远镜胜利HT10x54技术介绍.pdf
- 德国蔡司HT胜利望远镜使用方法.pdf
- 怎样制作望远镜(法语)十八.pdf
- 我国制造望远镜第一人薄珏及其与西学关系之考辩.pdf
- 房地产经纪综合能力模拟试卷.doc
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)