- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
融合词嵌入表示特征的实体关系抽取方法研究
研究论文
融合词嵌入表示特征的实体关系抽取方法
研究*
张 琴 1,2 郭红梅 1 张智雄 1,3
1( 中国科学院文献情报中心 北京 100190)
2( 中国科学院大学 北京 100049)
3( 中国科学院武汉文献情报中心 武汉 430071)
摘要: 【目的 】为解决已有方法中单词特征表示不具有语义信息这一问题, 对词嵌入表示特征在关系抽取中的作
用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征, 利用朴素贝叶斯模型、决策树
模型和随机森林模型进行对比实验, 并选出代表全部特征的有效特征子集。【结果】使用全部特征时, 决策树算
法的准确率达到0.48, 关系抽取效果最佳, Member-Collection( E ,E )类型关系的F 值达到0.70, 特征排序结果表
2 1 1
明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高, 以及词向量训练及
方法的相关参数需要进一步优化。【结论】实验证明选取的三种类型特征的有效性, 词嵌入表示级别特征在实体
关系抽取问题中可以发挥重要作用。
关键词: 关系抽取 词嵌入表示 Word2Vec
分类号: TP393
“John Smith is the chief scientist of the H
1 引 言 Corporation.” 中实体“John Smith”和“H”之间存
随着网络技术的发展, 非结构化信息的数量不断 在“Person-Affiliation”的语义关系。实体间关系抽取是
增多, 如此庞大的数字资源给人类学习和工作带来困 信息结构化的重要环节, 是知识图谱构建的关键部分,
扰。为了更好地利用这些信息, 研究人员利用信息抽 也是问答系统、自然语言理解应用中至关重要的一步。
取技术, 将非结构化信息转化成结构化信息。 传统的基于特征工程的实体关系抽取方法中使用
信息抽取技术希望计算机能够自动识别并抽取出 单词、实体类型、依存关系等特征, 单词使用字典索
文本中有价值的信息, 它具体分为命名实体识别 引表示, 这种表示方法不带有语义信息, 无法表达两
(Named Entity Recognition) 、关系抽取(Relation 个语义相近的实体之间的联系。词嵌入表示可以将以
Extraction)、事件抽取(Event Extraction)、时间信息抽 往离散的单词语义连续化, 如果两个单词语义越接近,
取 (Temporal Information Extraction) 和指代消解 那么它们对应的词向量空间距离就越大, 词嵌入表示
(Coreference Resolution)等研究点。其中, 关系抽取是 为自然语言处理提供非常有效的工具。为了解决以上
指自动识别两个实体之间属于哪种语义关系, 例如 问题, 本文融合词嵌入表示特征进行实体关系抽取。
通讯作者: 张琴, ORCID: 0000-0003-1404-842X, E-mail: qinzhang.zq@。
*本文系ISTIC-EBSCO 文献大数据发现服务联合实验室基金项目“基于clique 子团聚类的文本主题识别方法研究”的研究成果之一。
8 数据分析与知识发现
总第9 期 2017 年 第9 期
融合词嵌入表示特征的实体关系抽取方法考虑词 然后训练各种分类器模型完成关系抽取工作[6]。Mintz 等
嵌入表示级别特征、词汇级别特征和语法级别特征三 [7]使用 Freebase 知识库, 将其中的关系实例所包含的
类特征, 对基于特征工程的实体关系抽取方法进行改 实体同维基百科文本中的实体对齐, 从而产生训练数
进, 通过特征排序和有效特征子集进行实体关系抽取 据, 然后使用逻辑回归模型进行关系抽取。Banko
您可能关注的文档
- 电网黑启动试验及励磁控制-中国励磁专业网.pdf
- 电子计算机机房设计规范gb501793.doc
- 界首十三五财政改革发展规划-安徽界首财政局.doc
- 略论智能制造技术的发展ξ-miniie工业工程软件.pdf
- 电计科技研发宣传ver6中文版.pdf
- 白湖亭立交-福建农林大学招标信息管理系统.doc
- 癌细胞体外试验模型及成型技术现状和展望王高王晓晨刘婷-物理学报.pdf
- 登录调查机关登录簿.pdf
- 的模型试验研究.pdf
- 益通建设831343湖北新三板建筑企业挂牌第一股.pdf
- 初中英语人教版七年级上册第四单元Where is my schoolbag ! Section A .ppt
- 初中英语人教版七年级上册第四单元Where is my schoolbag Section B 2.ppt
- 初中英语人教版七年级下册 Unit 6 I'm watching TV. Section A 11a.pptx
- 注册土木工程师培训课件.ppt
- 初中生物济南版七年级上册第一章奇妙的生命现象 第三节生物学的探究方法.ppt
- 初中英语人教版七年级上册第四单元Where is my schoolbag Section B 2.pptx
- 注册安全工程师案例课件.ppt
- 初中物理人教版八年级上册第二章第4节噪声的危害和控制课件(共19张PPT).pptx
- 注册安全工程师王阳课件.ppt
- 初中数学青岛版八年级上2.4《线段的垂直平分线》课件(16张PPT).ppt
原创力文档


文档评论(0)