中文新闻事间要素自动抽取的研究.pdfVIP

下载本文档

9
0
约1.18万字
约 9页
2017-08-18 发布于安徽
举报
版权申诉

中文新闻事间要素自动抽取的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文新闻事件要素自动抽取研究李芳毛顺福蒋德良陆纬周凯冯礼李峰 (上海交通大学计算机系中德语言技术实验室，上海，200240) 摘要：网络新闻已成为传播的主要媒体，本文描述了自动抽取新闻报道中提及事件的发生时间、地点以及结果的一种方法。实现了基于时间与地点，新闻报道中多个事件的信息抽取，自动识别事件结果描述中数字之间的包含、并列关系．实验结果表明该方法对突发事件信息抽取取得了较好的效果，特别是对自然灾害事件。关键宇：中文信息处理；信息抽取；事件信息抽取；基于模板和模式的信息抽取 1．引言随着互联网的迅猛发展，网络已经成为新闻传播的主要媒体，相比传统媒体而言，网络新闻报道迅速、传播快速、信息全面、资源丰富。然而，重复报道或相互转载，导致信息过载，给用户造成了浏览负担和时间上的浪费。自动获取新闻，抽取新闻事件的要素，实现基于INTERNET信息的自动处理是我们研究的目标。事件定义为发生在某一特定时间，特定地点，具有一定影响力的事情。新闻报道的文档结构由标题，起始段，正文组成，而且从上到下有信息递减的趋势，包含了事件的六大要素。其中，时间、地点和结果是新闻事件的关键要素，是信息抽取的主要内容。不同于国内其他事件信息抽取的研究【l儿2I，我们的研究主要针对网络新闻以下一些特点： 1)新闻报道中一个事件的发生会提及以往事件的发生，或后续事件的信息，因此，对特定事件信息的正确抽取需要区分哪些是描述该事件的信息，哪些是其他事件的信息。 2)新闻事件，尤其是突发事件，时间，地点起着非常重要的作用，但是，时间信息具有丰富的表达形式，如何正确识别文本中各种时间表达式，近年来已成为研究人员的研究目俐3】【4】【5】。如何自动判断新闻事件发生的时间与具体地点，是区分不同事件、抽取正确事件结果的前提。 3)各种事件给人类带来了灾害。自动获取事件所造成的结果，具有一定的应用价值。然而，事件结果信息的描述种类繁多，如何正确识别语言描述中结果数据中的并列、追加以及包含关系是要解决的问题。针对上述三大问题，我们先对新闻报道中所有时间与地点表达式进行自动标注；然后自动识别事件发生的时间与地点；根据时间与地点【6J，划分新闻报道中提及的多个事件，自动抽取各个事件所造成的结果，解决结果信息中的包含与并列关系。本文其他部分组织如下：第二部分简要叙述事件发生时间、地点的自动识别，重点描述事件结果的自动抽取，第三部分给出一个抽取实例，第四部分是实验结果，最后是总结。基金资助：该项研究得到实验室德方项目资助，前期研究得到上海市科委国际合作项目资助(项目编号：045107035) 联系作者：李芳，Email：fli@自tu．edu．∞ 中文新闻事件要素自动抽取研究 2．新闻事件时间地点与结果信息的抽取 2．1 事件时间信息的抽取特定事件的发生总是和时间与地点关联，而新闻报道中往往会提到不止一个的时间与地点描述，如何正确抽取事件的时间与地点是抽取事件其他信息的前提。事件时间与地点信息自动抽取过程见图1。图1事件时间与地点的自动识别根据图l，时间的自动抽取分以下几个步骤： 1)新闻报道的预处理：从在线新闻报道中提取文本信息，标记文档的段落结构：过滤特殊字符和空白行，然后，调用海量分词系统，对新闻报道进行词性和一些命名实体的识别等处理。 2)时间表达式识别与标准化：根据事先确定的16种时间元素，对文档中所有的时间秒，其中，世纪元素包括：初、上、中、下、末；20--90年代(初，中，末)；年元素包括：初、上、中、下、底；一～四季度；春夏秋冬等。时间表达式的标准形式是一个二维数组，列信息对应标准形式的各个部分，例如世纪，年，月，日等；行代表了该标准时间不同的 1498 第24部分中文处理参照点，参照点时间分为：报道时间、文章中前一时间表达式、过去某一时间段或没有参照时间。 3)时间表达式的推理：根据参照点时间，推算该时间表达式的具体值。例如：“5 月6日早上8点，日本东京发生地震。下午4点，余震又波及东京附近地区”。“5月6 日早上8点”根据报道时间可以推算该时间表达式的标准形式为“2007年5月6日早上8 点”，“下午4