中文文本中企业并购信息的自动抽取资料教材.pptVIP

中文文本中企业并购信息的自动抽取资料教材.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文文本中企业并购信息的自动抽取 北师大中文信息处理研究所 韩伟峰(weifenghan04@163.com) 2009.11.06 提纲 本文研究意义及任务 语料库的建设 企业并购典型表达模式分析 知识库的建设 本文研究的难点 一 本文的研究意义及任务 1.1 本文研究意义 信息抽取是自然语言处理的一个重要应用领域。 本文中所指的“并购”包括:收购、兼并和合并。 中文文本企业并购信息自动抽取的研究是信息抽取在经济和金融领域的探索实践和应用,具有重要的研究意义。 1.2 本文研究的任务 本文的研究目标是在研究分析大量相关语料基础上,人工加机器总结股权收购事件在句子或句群中的表述模式,并且基于HNC理论进行语义分析,建立实现抽取的模式知识库。 在模式的获取和表示方法上,我们侧重于语义知识的利用,借鉴HNC理论的概念和句类思想,并通过对语言形式和内容的细致考察来定义抽取模式。 1.2 本文研究的任务 抽取的信息拟包括:并购类型、主动方、被动方、并购金额、并购结果、并购性质等等。 抽取的信息也会因为并购类型不同增加 比如:合并——合并后的新企业名称 收购——收购内容(股权、资产) 兼并——产权转移 二 语料库的建设 2.1 语料库的收集整理 语料的选取与抽取任务结合 这里选择报道企业并购事件的新闻语料,排除一些评论性和分析性的语料。 充分利用语料研究企业并购信息表达 语料中总结提取出规则使用的模式是很重要的一步。 2.2 语料的收集与标注 语料的收集整理是本文研究很重要的前期准备。 语料来源: 中国并购网 关于并购的新闻报道。 制订语料标注规则 原则:程序自动提取信息所需要的知识 (因为识别不是本文研究范围,所以一些公司企业名、人名等需要先行标注) 标注范例 T北京时间10月27日/T早间消息,据国外媒体报道,Corp北电/Corp周一宣布,已经与Corp日立/Corp达成合作协议,由日立出资Mb1000万美元/Mb购买Corp北电/Corp下一代分组核心网络部件业务。 三 企业并购的信息模式分析 3.1 企业并购信息的分析 分析方法是以相关句子或者句群的动词为中心。 分析内容:动词主语搭配、动词宾语搭配、适用的并购类型等等 例如:“转让” 主语:主动方 宾语:内容(资产、股权、债务) 类型:收购 3.2 企业并购信息的表达模式 按照并购的类型分类总结表达模式 HNC理论的句类理论为我们提供了很好的理论基础。 转移句 T0 = TA+T0+TB+TC 关系句 Rm4 = RB + R 等等…… 3.3 表达模式范例 四 知识库的建设 核心动词知识库 并购结果知识库 并购类型知识库 排除知识库 4.1 核心动词知识库 核心动词库的建立依据动词自身的特点来进行。 构想(以“收购”为例): Verb Object(主语) Type(类型) 收购 a/p .F. 并购 a .T. 认购 a .T. 受让 p .T. 转让 p .F. 4.2 并购结果知识库 并购信息中,并购结果是抽取的重要任务之一,表示结果的词语和表达很多,也可以尽可能穷尽。 一般位于核心动词的前面,或者后面,或者是另一句子隐含信息。 V前:成功、圆满、顺利 / 没有、中断等 V后:了、完、成功、结束/ 失败、终止、失效等 隐含:不欢而散、功亏一篑、皆大欢喜等 另外还会有一些固定表达模式。 4.3 并购类型知识库 抽取要区分并购类型:收购、兼并、合并 某些核心动词可以明显判断: 收购、合并、兼并、吞并、吃掉 有些需要V+N来判断 收购15%股权 收购全部产权 更复杂的需要考察上下文推断,这需要更高的理解层次。 4.4 排除知识库 有些信息是与我们的所抽取的任务无关,但是其存在干扰了我们抽取的准确性。 比如,时间类:上次、去

文档评论(0)

rachel + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档