基于决策树的中文指代消解.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树的中文指代消解.doc

基于决策树的中文指代消解   摘要:指代消解是自动文摘的重要技术,中文指代消解的重要手段是名词短语特征向量的确定和选取。将名词向量构建成决策树,训练得到中文指代消解测试结果。   关键词:指代消解;名词短语;决策树   中图分类号:TP301   文献标识码:A 文章编号:1672-7800(2014)003-0031-02   1 中文指代消解采用的特征   指代消解技术对于自然语言处理中的自动文摘、信息抽取等都具有非常重要的意义。解决指代消解的关键技术是词性标注、命名实体识别、名词短语识别等相关技术。   中文指代消解采用的特征,相关研究中主要有:李国臣、罗云飞利用决策树方法[1]提出将距离属性和反映指代相似性的频次属性相结合的优先选择策略,主要通过明显的性别特征词来识别;北京大学的王厚峰[2]提出的采用特征中可以借鉴的有:性别、单复数;哈尔滨工业大学的郎君、刘挺和秦兵[3]提出了16个特征来构建特征向量,尽管提出16个特征,但在构建决策树时,只采用了其中的6个特征,所以不是特征选择的越多,就表示指代消解的结果越理想。根据语言学经验选定适合决策树方法的特征属性,才能够保证识别的正确率。   2 名词短语特征向量   通过参考前述国内外文献中选用的特征向量,以及对中文语法和句法的分析,我们选定6个特征来构建特征向量。   2.1 专有名词属性   每个名词短语本身的属性。先行词一般是名词短语,人名(Human Name)、地名(Place Name)、机构名(Organization Name)、时间(Time)、代词(Pronoun Name)和一般名词(General),分别用符号H、P、O、T、D和G 表示。不同类型的先行词对应的照应语类型不同。   分组例句:{代表/v(n-Vg)}Q宁夏/ns }P{530万/m}Q {各族/r}D{ 人民/n }Q{ 深情厚意/i 的/u(d-Ng-u) 5万/m 公斤/q 优质/b}Q{ 大米/n}G{ 在/p(d-p-v)}Q{ 银川/ns}P{火车站/n }G{装运/v 上/v(f-Ng-v) }Q{ 车/n(n-q-v) }G ,{/w 紧急/ad 运往/v }Q{灾区/n}g 。/w {(/w 新华社/nt )}O{ 记者/n }G{ 刘/nr 泉龙/nr }H{ 摄/v(v-Vg)}Q。   2.2 性别属性   先行词和指代词的性别属性值为男性、女性和不确定,分别用符号M(Male) 、F(Female) 和U(Unknown)表示。人称代词和相应的先行词的性别必须是一致的;性别不一致,应绝对排除。人称先行词的性别信息不明确时,不能排除。   确定一个名词短语的性别有多种方法。指示词或代词如“他”、“她”、“它”等可以用来确定性别。汉语中针对性别的判断有如下方式:   (1)男性判断方式:①短语中出现“他”、“哥”、“爸”、“父亲”、“弟”、“爷”、“叔”或者“伯”就认为性别为“男性”;②名词中出现表示男性的词的集合如“丈夫”、“先生”、“侄子”、“孙子”、“外孙”、“外甥”、“长子”等;③一个名词的第一个字或者前面有“男”字均记作M。   (2)女性判断方式:①如果短语中含有“她”、“妈”、“姐”、“妹”、“姊”、“母亲”、“奶”、“姑”或者“姨”就认为性别为“女性”;②表示女性的词的集合如“妻子”、“太太”、“丫头”等;③汉语通常用表示女性的代词“她”、“母亲”等来表示祖国。如“2009年10月1日,我们伟大祖国迎来了她的60岁生日”。   以上是确定性别的方式,其他情况均可视为“不确定”,如出现“你”、 “我”、 “你们”、“我们”等。   根据上述对句法和语法的分析可以看出,像“他”这类表示男性的代词应该指代表示男性的命名实体,而“她”这类表示女性的代词应该指代表示女性或国家的命名实体。   2.3 单复数属性   先行词和指代词的单复数属性分为单数、复数和不确定,分别用符号S(Single)、P(Plural)和U(Unknown)表示。“数”是判定指代关系的重要依据。   (1)单数情况:主语为人名、机构、地点、距离、时间、长度等表示单一概念的名词;短语是“他”、“我”、“她”、“它”等;独立性名词,如“王老师”、“李校长”等都可以看作单数。   (2)复数情况:如果短语中含有“们”、“和”、“与”等;出现如下量词,如“帮”、“群”、“班”、“批”、“家”、“伙”、“拨”、“堆”、“代”、“对”等;出现“父母”、“夫妇”等均被认为是复数。以上是确定单复数的方式,其他情况均可视为“不确定”。在分词工具ICTCLAS中对量词也进行了标注,m表示数词,mq 表示数量词。   2.4 距离属性   反映先

您可能关注的文档

文档评论(0)

lmother_lt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档