- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文新闻事件要素自动抽取研究
李芳 毛顺福 蒋德良 陆纬 周凯 冯礼 李峰
(上海交通大学计算机系中德语言技术实验室,上海,200240)
摘要:网络新闻已成为传播的主要媒体,本文描述了自动抽取新闻报道中提及事件的发生时
间、地点以及结果的一种方法。实现了基于时间与地点,新闻报道中多个事件的信息抽取,自
动识别事件结果描述中数字之间的包含、并列关系.实验结果表明该方法对突发事件信息抽取
取得了较好的效果,特别是对自然灾害事件。
关键宇:中文信息处理;信息抽取;事件信息抽取;基于模板和模式的信息抽取
1.引言
随着互联网的迅猛发展,网络已经成为新闻传播的主要媒体,相比传统媒体而言,网
络新闻报道迅速、传播快速、信息全面、资源丰富。然而,重复报道或相互转载,导致信
息过载,给用户造成了浏览负担和时间上的浪费。自动获取新闻,抽取新闻事件的要素,
实现基于INTERNET信息的自动处理是我们研究的目标。
事件定义为发生在某一特定时间,特定地点,具有一定影响力的事情。新闻报道的文
档结构由标题,起始段,正文组成,而且从上到下有信息递减的趋势,包含了事件的六大
要素。其中,时间、地点和结果是新闻事件的关键要素,是信息抽取的主要内容。不同于
国内其他事件信息抽取的研究【l儿2I,我们的研究主要针对网络新闻以下一些特点:
1)新闻报道中一个事件的发生会提及以往事件的发生,或后续事件的信息,因此,
对特定事件信息的正确抽取需要区分哪些是描述该事件的信息,哪些是其他事件的信息。
2)新闻事件,尤其是突发事件,时间,地点起着非常重要的作用,但是,时间信息
具有丰富的表达形式,如何正确识别文本中各种时间表达式,近年来已成为研究人员的研
究目俐3】【4】【5】。如何自动判断新闻事件发生的时间与具体地点,是区分不同事件、抽取正确
事件结果的前提。
3)各种事件给人类带来了灾害。自动获取事件所造成的结果,具有一定的应用价值。
然而,事件结果信息的描述种类繁多,如何正确识别语言描述中结果数据中的并列、追加
以及包含关系是要解决的问题。
针对上述三大问题,我们先对新闻报道中所有时间与地点表达式进行自动标注;然后
自动识别事件发生的时间与地点;根据时间与地点【6J,划分新闻报道中提及的多个事件,
自动抽取各个事件所造成的结果,解决结果信息中的包含与并列关系。
本文其他部分组织如下:第二部分简要叙述事件发生时间、地点的自动识别,重点描
述事件结果的自动抽取,第三部分给出一个抽取实例,第四部分是实验结果,最后是总结。
基金资助:该项研究得到实验室德方项目资助,前期研究得到上海市科委国际合作项目资助(项目编号:045107035)
联系作者:李芳,Email:fli@自tu.edu.∞
中文新闻事件要素自动抽取研究
2.新闻事件时间地点与结果信息的抽取
2.1 事件时间信息的抽取
特定事件的发生总是和时间与地点关联,而新闻报道中往往会提到不止一个的时间与
地点描述,如何正确抽取事件的时间与地点是抽取事件其他信息的前提。事件时间与地点
信息自动抽取过程见图1。
图1事件时间与地点的自动识别
根据图l,时间的自动抽取分以下几个步骤:
1)新闻报道的预处理:从在线新闻报道中提取文本信息,标记文档的段落结构:过
滤特殊字符和空白行,然后,调用海量分词系统,对新闻报道进行词性和一些命名实体的
识别等处理。
2)时间表达式识别与标准化:根据事先确定的16种时间元素,对文档中所有的时间
秒,其中,世纪元素包括:初、上、中、下、末;20--90年代(初,中,末);年元素包括:
初、上、中、下、底;一~四季度;春夏秋冬等。时间表达式的标准形式是一个二维数组,
列信息对应标准形式的各个部分,例如世纪,年,月,日等;行代表了该标准时间不同的
1498 第24部分中文处理
参照点,参照点时间分为:报道时间、文章中前一时间表达式、过去某一时间段或没有参
照时间。
3)时间表达式的推理:根据参照点时间,推算该时间表达式的具体值。例如:“5
月6日早上8点,日本东京发生地震。下午4点,余震又波及东京附近地区”。“5月6
日早上8点”根据报道时间可以推算该时间表达式的标准形式为“2007年5月6日早上8
点”,“下午4
文档评论(0)