How to Train Knowledge Vector课件.ppt

下载文档 降价啦

0
0
约1.04千字
约 7页
2019-04-23 发布于湖北
举报
版权申诉
保障服务

How to Train Knowledge Vector课件.ppt

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

How to Train Knowledge Vector 我们想要什么？我们有什么？构建知识库 baseline 精品文档量化知识库。通过向量来表征概念。使得我们可以用机器学习的方法来挖掘新的知识。我们想要什么？精品文档我们有什么？ Entry(~4.8million) link links in article see also Article(~10+ GB) profile body Infobox Class 精品文档精品文档由词条所在页面的出链构建关系库 Tsinghua_Univesity,w1,Beijing Tsinghua_Univesity,w2,Peking_University Tsinghua_Univesity,w3,Nankai_University 注意，1、我们只是采用单一的关系，即有边或者没有边。 2、为了刻画entry间的距离，我们引入权重，使得边的值从-1到1连续取值。初始值由link在文章不同位置的重要程度决定。经过训练后，这些初始值会以最终的模型预测值为准。 3、关系应该具有方向性。（待议）（可能需要引入出链关系变换矩阵和入链关系变换矩阵）构建知识库精品文档如何利用文本信息？将训练词向量的方法和训练关系空间的方法结合起来，让两种模型共享知识向量。精品文档 Discuss 1、这里我们认为知识向量就是词向量。改进的方法可能是，我们会将知识向量当做文章向量，相当于训练时的代表知识的词向量不作为最终的向量。因为文本中entry的词频一般比较低，可能导致词向量训练不充分。 2、我们认为从文本中训练出的词向量不需要经过映射，直接就可以用于知识间的内积距离计算。由于词向量中不仅包含关系信息，也包含上下文信息。因此改进的方法可能是加映射矩阵。或者文章向量也许可以帮助我们解决这个问题。 3、这里没有考虑关系的方向问题。通过增加左右两个映射矩阵，或者训练两个词向量，也许可以解决。 4、我们没有考虑实体的重要性。往往一个实体可以由与他相关的重要的实体很好的刻画。后期的改进是加入pagerank等方法，使得我们把重点关注到更加重要的知识上。 5、由于训练词向量时，entry的词频往往比较低，使得词向量训练不充分，通过将低频的entry替换为tag，从而有效解决这个问题。注意，我们最后会以文章向量作为知识的表征。 Baseline 精品文档