中文新闻语料中时间短语识别方法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要 在自然语言中,时间信息是~利,重要的信息,它是一个事件的重要 组成部分,研究表明,它在文本信息-二}l所占的比重仅次子专有名词。在 日常生活中,当人们阅读一篇新闻时,他们总是要把文章的内容和时间 信息联系起来,通过文章中的时间信息可以了解一个事件的开始、进行、 结束以及事件发生的频率,把握一个事件发生的全过程,了解事件发展 的前因后果,作为进一步决策的重要依据。因此,时间相关信息的处理 是自然语言理解过程中一个非常重要的部分,它对于信息抽取、信息检 索、问答系统、主题发现和跟踪、文本摘要和数据挖掘领域都具有重大 的意义。 本文的研究重点是明显时间信息中的事件时间短语。在研究中,我 们发现,通过事件和时间指示词组合的时间短语是文本中表达明显时间 信息的短语,我们把它定义为事件时间短语,它在新闻语料中大量的出 现。 本文的主要工作如下: 1.确定识别时间短语的类型:在分析真实语料的基础上,以ACE ChineseAnnotation (AutomationContentExtraction)评测标准ACE Guidelines 2.对文本进行预处理包括分词、词性标注; 3.进行语料标注,提取事件时间短语和一般时间短语的规则以及事 件时间短语的边界决策特征; 4.针对文本中不同时间短语的特点采用不同的方法识别: 识别事件时间短语:本文的事件时间短语识别是一个重点内容,对 它的识别采用模式匹配和决策树相结合的方法,模式匹配的方法不仅充 分的分析了事件时间短语的内部特征,而且还大幅提高了事件时间短语 识别的召回率;使用决策树的方法可以通过边界决策特征来提高事f-Ii¨寸 问短语识别的精确率; 识别一般时间短语:本文对一般时间短语采用两步走的方法进行识 别,先识别简单时间短语,再用提取的模板规则将它们组合成复杂的时 间短语,其中关键是对时间模板的提取,尽可能完全的涵盖待识别的时 间短语类型; 5.系统构建:本文构建了一个时间短语识别系统,使用40万字的 语料作为训练集,对文本中的时间短语进行自动识别。 实验结果表明,本文使用的识别时间短语的方法是行之有效的,对 事件时间短语的开放测试中精确率和召回率分别是89.55%和89.78%, 识别简单时间表达和复杂时间表达的F值分别是98.5%、95.2%,都达 到了比较好的效果。 最后,本文详细分析了实验结果中的错误实例,分析了原因,并对 一些问题提出了解决的办法。在今后我将进…步扩大资源,对H?Ia短语 类型和识别方法进行更加深入的研究。 关键词:时间短语识别;模式匹配;事件时间短语:决策树 中图分类号:TP391 Researchinto OfChineseNews Temporal Expressions Zhao Guorong(Computer Directed byYahgErhong ABSTRACT Innatural timeinformationisanimportantmessage language,the inthetextafter studiesindicatethatthetimeshareinformation Some proper noun.Whenreada ofnewsinnormal wantto people piece life,theyalways knowthecontentandti

文档评论(0)

ltt20083 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档