基于深度学习的专家排序方法..docVIP

下载本文档

7
0
约4.89千字
约 8页
2017-01-11 发布于重庆
举报
版权申诉

基于深度学习的专家排序方法..doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于深度学习的专家排序方法.

基于深度学习的专家排序方法魏斯超云南机电职业技术学院，昆明,650203 摘要：关键词： 1 引言专家检索是垂直信息检索的研究热点，用以对专家特定人群进行更精确的查询。专家检索是指根据查询和专家的相关度对专家进行排序,将最相关的专家排在前面。其中专家排序方法的好坏对专家检索效果起着至关重要的作用。目前专家排序方法主要包括专家模型排序方法，文档模型排序方法，投票模型排序方法和链接分析模型。针对专家排序不应只计算单个专家的相关性而应该考虑整个专家列表上的排序损失，第三章提出了基于列表的专家排序方法。这种方法在很大程度上提高了专家检索的精度，但存在局限性。该方法采用的神经网络模型由于随机初始化容易陷入局部最小而且训练时间过长，此外浅层的神经网络不能更好的模拟排序函数。近期在机器学习领域研究火热的深度学习最初是由Hinton等人2006年提出的一种深度可信网络模型[45],该算法至今仍是深度学习的主流方法。深度可信网络DBN模型被认为由一层BP网络和若干层RBM堆叠而成，训练过程中训练实例作为底部RBM的输入，下一层RBM的输出作为上一层RBM的输入，由此从低到高逐层训练RBM来构建深度可信网络模型，每层RBM通过反复训练求得最优参数。这一模型绕过直接从整体上训练DBN的高复杂度，而将其转化为对多个RBM层的训练问题。最后通过顶层BP神经网络算法对深度可信网络模型进行整体微调，提高了建模能力。深度学习在语音识别和图像处理上取得了显著的成就。微软亚洲研究院和谷歌的研究员通过使用DNN技术在语音识别上降低了20%~30%的错误率，取得了十几年来突破性的进展。在图像处理领域也降低了10%左右的错误率。深度学习在自然语言处理的诸多领域也得到了广泛的研究和应用。如陈宇[47]等提出的利用深度学习进行中文名实体关系抽取方法，证明了深度学习非常适用于基于高维空间特征的信息抽取任务；又如奚雪峰[48]等提出的利用深度学习机制进行基于语义特征的代词指代消解方法，表明增加RBM训练层数可以提高系统性能。深度学习方法通过RBM无监督的自训练得到很好的参数来逐层初始化权重，进而构建深度可信网络DBN模型能够很好的克服神经网络的局限。综合上述考虑本文提出了基于深度学习的专家排序方法。 2 深度学习模型 2.1深度可信网络DBN DBN(deep belief nets)模型是由多层无监督的RBM(restricted Boltzmann machine)网络和一层有监督的反向传播BP网络组成的一种深层神经网络。其结构如图4.1所示。DBN模型在训练过程中主要分为两步:首先分别单独无监督的训练每一层RBM网络,求得每层最优参数，确保特征向量映射时,尽可能多地保留好的特征信息，弱化次要信息和错误信息，即多层RBM对特征集合聚类的过程；然后DBN的顶层的BP神经网络接收最后一层RBM输出的特征向量作为其输入特征向量，进行分类并微调整个DBN模型。图1 DBN结构图 DBN训练的具体过程是：1.将专家文档的特征向量赋值给底层RBM的可视层作为输入；2.RBM通过自训练求得最佳层内权重参数，并输出隐含层特征；3.低层RBM的输出作为顶层RBM的输入，逐层从低向上传播，直到最顶层RBM；4.BP神经网络接收最顶层RBM的输出作为其输入特征，进行对专家进行分类排序，并微调每层RBM的权重参数。其中RBM网络训练模型是DBN的核心。它通过自训练得到层内最优参数，可以看作是对一个深层BP网络参数的初始化，克服了BP神经网络因随机初始化参数而容易陷入局部最小和训练时间过长等缺点。底层RBM网络接收原始的特征向量,顶层RBM将低层RBM的输出作为其输入，在自底向上的传递过程中，具体的特征向量逐渐转化为抽象的特征向量，在顶层的RBM网络形成更易于分类排序的组合特征向量，而且传递过程中会弱化次要信息和错误信息。深层网络可以更好的逼近排序函数，因此理论上深层网络的排序效果比浅层网络要好。 2.2受限玻尔兹曼机RBM自训练过程 RBM是DBN的核心，由一个可见层v和一个隐含层h组成。层间的节点两两相连，层内的节点互不相连，其结构如图4.2所示。图2 RBM结构图 RBM模型在给定可见层单元状态下，各隐含层单元的激活条件是独立的；反之，在给定隐含层单元状态下，可见层单元的激活条件也是独立的。假设RBM模型有n个可视单元和m个隐含单元，表示可视单元和隐含单元之间的权重矩阵，表示可视层的偏置向量，表示隐含层的偏置向量。RBM自训练的目的是确定参数使联合概率分布。在自训练过程中，首先将可视层向量值映射给隐含单元；然后通过隐含层向量值重建可视单元；重建的新可视单元再次映射给隐含单元，又可以获取新的隐含单元。反复执行这种步骤叫做吉布斯采样。可视层的输入通常是已知的