How to Train Knowledge Vector课件.ppt

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
How to Train Knowledge Vector 我们想要什么? 我们有什么? 构建知识库 baseline 精品文档 量化知识库。通过向量来表征概念。使得我们可以用机器学习的方法来挖掘新的知识。 我们想要什么? 精品文档 我们有什么? Entry(~4.8million) link links in article see also Article(~10+ GB) profile body Infobox Class 精品文档 精品文档 由词条所在页面的出链构建关系库 Tsinghua_Univesity,w1,Beijing Tsinghua_Univesity,w2,Peking_University Tsinghua_Univesity,w3,Nankai_University 注意,1、我们只是采用单一的关系,即有边或者没有边。 2、为了刻画entry间的距离,我们引入权重,使得边的值从-1到1连续取值。初始值由link在文章不同位置的重要程度决定。经过训练后,这些初始值会以最终的模型预测值为准。 3、关系应该具有方向性。(待议)(可能需要引入出链关系变换矩阵和入链关系变换矩阵) 构建知识库 精品文档 如何利用文本信息? 将训练词向量的方法和训练关系空间的方法结合起来,让两种模型共享知识向量。 精品文档 Discuss 1、这里我们认为知识向量就是词向量。改进的方法可能是,我们会将知识向量当做文章向量,相当于训练时的代表知识的词向量不作为最终的向量。因为文本中entry的词频一般比较低,可能导致词向量训练不充分。 2、我们认为从文本中训练出的词向量不需要经过映射,直接就可以用于知识间的内积距离计算。由于词向量中不仅包含关系信息,也包含上下文信息。因此改进的方法可能是加映射矩阵。或者文章向量也许可以帮助我们解决这个问题。 3、这里没有考虑关系的方向问题。通过增加左右两个映射矩阵,或者训练两个词向量,也许可以解决。 4、我们没有考虑实体的重要性。往往一个实体可以由与他相关的重要的实体很好的刻画。后期的改进是加入pagerank等方法,使得我们把重点关注到更加重要的知识上。 5、由于训练词向量时,entry的词频往往比较低,使得词向量训练不充分,通过将低频的entry替换为tag,从而有效解决这个问题。注意,我们最后会以文章向量作为知识的表征。 Baseline 精品文档

文档评论(0)

liuxiaoyu98 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档