中文新闻事间要素自动抽取的研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文新闻事件要素自动抽取研究 李芳 毛顺福 蒋德良 陆纬 周凯 冯礼 李峰 (上海交通大学计算机系中德语言技术实验室,上海,200240) 摘要:网络新闻已成为传播的主要媒体,本文描述了自动抽取新闻报道中提及事件的发生时 间、地点以及结果的一种方法。实现了基于时间与地点,新闻报道中多个事件的信息抽取,自 动识别事件结果描述中数字之间的包含、并列关系.实验结果表明该方法对突发事件信息抽取 取得了较好的效果,特别是对自然灾害事件。 关键宇:中文信息处理;信息抽取;事件信息抽取;基于模板和模式的信息抽取 1.引言 随着互联网的迅猛发展,网络已经成为新闻传播的主要媒体,相比传统媒体而言,网 络新闻报道迅速、传播快速、信息全面、资源丰富。然而,重复报道或相互转载,导致信 息过载,给用户造成了浏览负担和时间上的浪费。自动获取新闻,抽取新闻事件的要素, 实现基于INTERNET信息的自动处理是我们研究的目标。 事件定义为发生在某一特定时间,特定地点,具有一定影响力的事情。新闻报道的文 档结构由标题,起始段,正文组成,而且从上到下有信息递减的趋势,包含了事件的六大 要素。其中,时间、地点和结果是新闻事件的关键要素,是信息抽取的主要内容。不同于 国内其他事件信息抽取的研究【l儿2I,我们的研究主要针对网络新闻以下一些特点: 1)新闻报道中一个事件的发生会提及以往事件的发生,或后续事件的信息,因此, 对特定事件信息的正确抽取需要区分哪些是描述该事件的信息,哪些是其他事件的信息。 2)新闻事件,尤其是突发事件,时间,地点起着非常重要的作用,但是,时间信息 具有丰富的表达形式,如何正确识别文本中各种时间表达式,近年来已成为研究人员的研 究目俐3】【4】【5】。如何自动判断新闻事件发生的时间与具体地点,是区分不同事件、抽取正确 事件结果的前提。 3)各种事件给人类带来了灾害。自动获取事件所造成的结果,具有一定的应用价值。 然而,事件结果信息的描述种类繁多,如何正确识别语言描述中结果数据中的并列、追加 以及包含关系是要解决的问题。 针对上述三大问题,我们先对新闻报道中所有时间与地点表达式进行自动标注;然后 自动识别事件发生的时间与地点;根据时间与地点【6J,划分新闻报道中提及的多个事件, 自动抽取各个事件所造成的结果,解决结果信息中的包含与并列关系。 本文其他部分组织如下:第二部分简要叙述事件发生时间、地点的自动识别,重点描 述事件结果的自动抽取,第三部分给出一个抽取实例,第四部分是实验结果,最后是总结。 基金资助:该项研究得到实验室德方项目资助,前期研究得到上海市科委国际合作项目资助(项目编号:045107035) 联系作者:李芳,Email:fli@自tu.edu.∞ 中文新闻事件要素自动抽取研究 2.新闻事件时间地点与结果信息的抽取 2.1 事件时间信息的抽取 特定事件的发生总是和时间与地点关联,而新闻报道中往往会提到不止一个的时间与 地点描述,如何正确抽取事件的时间与地点是抽取事件其他信息的前提。事件时间与地点 信息自动抽取过程见图1。 图1事件时间与地点的自动识别 根据图l,时间的自动抽取分以下几个步骤: 1)新闻报道的预处理:从在线新闻报道中提取文本信息,标记文档的段落结构:过 滤特殊字符和空白行,然后,调用海量分词系统,对新闻报道进行词性和一些命名实体的 识别等处理。 2)时间表达式识别与标准化:根据事先确定的16种时间元素,对文档中所有的时间 秒,其中,世纪元素包括:初、上、中、下、末;20--90年代(初,中,末);年元素包括: 初、上、中、下、底;一~四季度;春夏秋冬等。时间表达式的标准形式是一个二维数组, 列信息对应标准形式的各个部分,例如世纪,年,月,日等;行代表了该标准时间不同的 1498 第24部分中文处理 参照点,参照点时间分为:报道时间、文章中前一时间表达式、过去某一时间段或没有参 照时间。 3)时间表达式的推理:根据参照点时间,推算该时间表达式的具体值。例如:“5 月6日早上8点,日本东京发生地震。下午4点,余震又波及东京附近地区”。“5月6 日早上8点”根据报道时间可以推算该时间表达式的标准形式为“2007年5月6日早上8 点”,“下午4

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档