《人工智能》第9章面向金融领域的信息抽取.pptx

《人工智能》第9章面向金融领域的信息抽取.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第9章面向金融领域的信息抽取

文本信息/知识尘埃落定。9月6日,中国跨境电商行业最大的一起并购案浮出水面,阿里巴巴集团以20亿美元全资收购网易旗下跨境电商平台考拉。同时,还作为领投方参与了网易云音乐B2轮7亿美元的融资。但网易仍会保持对网易云音乐的绝对控股。。9月6日20亿美元阿里巴巴考拉信息抽取收购时间价格关键实体关系事件

目录01面向金融领域的命名实体识别02面向金融领域的关系抽取03面向金融领域的时间抽取04面向金融领域的事件抽取

第一部分面向金融领域的命名实体识别PART0101命名实体识别常用模型序列标注问题010203

命名实体识别-人名识别文本中的人名表述特点:名字多样任我行、东方不败、萨马兰奇。姓氏固定《中华姓氏大辞典》:11969个姓氏常用姓氏:1000多。形态变化全称:马云、王健林姓名+职位词:马董事长、王老板姓名多义白云、黑土马云正式卸任阿里巴巴董事局主席,现阿里CEO张勇接班。马云张勇

命名实体识别-组织机构名识别文本中的组织名表述特点:简称/昵称多样哈尔滨工业大学-哈工大阿里巴巴-阿里-淘宝全称较长,包含前后缀特征哈尔滨工业大学深圳研究生院深圳市腾讯计算机系统有限公司子组织/机构腾讯-腾讯视频阿里巴巴-淘宝网马云正式卸任阿里巴巴董事局主席,现阿里CEO张勇接班。阿里巴巴阿里

序列标注问题BIO标注体系:B(Begin):表示实体的开始I(Inner):表示仍在实体中O(Outer):表示不属于实体文本:马云卸任,张勇接班特征提取器分类器O-B-…-I输出标签B-I-…-O①训练真实标签比较更新直接输出②预测模型马云张勇

常用模型??????????隐马尔可夫模型(HiddenMarkovModel,HMM)??????????编码层(特征提取层)解码层(输出层)条件随机场模型(ConditionalRandomField,CRF)每一位置的特征只与相邻位置的特征有关标签之间相互独立每一位置的特征只与相邻位置的特征有关标签之间有类似的关系

第二部分面向金融领域的关系抽取PART0202词向量关系抽取方法010203关系抽取概述

关系抽取概述阿里巴巴收购网易考拉阿里巴巴网易考拉阿里巴巴,网易考拉,买卖实体1,实体2,关系合作买卖合并实体1实体2实体2实体1实体1实体2实体3实体1实体2从属实体1实体2

词向量One-Hot编码:阿里巴巴收购网易考拉[1,0,0][0,1,0][0,0,1]Example:酒店[000000000010000]旅馆[000000010000000]相似度为0.(以向量cosine夹角度量)缺点:维度与词表大小有关-单词越多,向量越长无法反应词语之间的关系酒店旅馆

One-Hot编码:阿里巴巴收购网易考拉[1,0,0][0,1,0][0,0,1]缺点:维度与词表大小有关-单词越多,向量越长无法反应词语关系-任意两个向量成绩为0词嵌入向量:优点:维度固定,方便做向量/矩阵运算-适合神经网络模型可以度量词语关系-计算向量距离Example:酒店[000000000010000]旅馆[000000010000000]相似度为0.词向量

关系抽取方法2019年9月6日阿里巴巴20亿美元收购网易考拉输入层(词向量层)实体识别层阿里巴巴网易考拉关系抽取层买卖阿里巴巴网易考拉

第三部分面向金融领域的时间抽取PART0303时间标准化0102时间抽取概述

混合型时间跨度绝对时间相对时间2019年9月14日星期六下周三,上个月两年、三天时间抽取概述HansReichenbach——时间规范理论1)说话时间(SpeechTime,ST):整段文本发生的时间,也叫作基准时间。2)参考时间(ReferenceTime,RT):文本中可以作为参考的时间。3)事件时间(EventTime,RT):文本中包含事件的发生时间。时态:完成态、进行态、经历态、起始态、将行态、继续态、一般态。

标准ISO8601Standard顺序日期2019-257(2019年的第257天)2019-W37(2019年的第37周)时长P2W(两周)年月日2019-09-141990-04-29时分秒15:52:4509:40:23时间标准化将文本中的不同时间表达式转化为标准形式存储以便进一步利用。时间标准化

第四部分面向金融领域的事件抽

文档评论(0)

autohhh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档