统计机器学习方法假设所有数据都是具有相同结构的实体,数据之间是.pdfVIP

下载本文档

2
0
约 5页
2017-11-19 发布于浙江
举报
版权申诉

统计机器学习方法假设所有数据都是具有相同结构的实体,数据之间是.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计机器学习方法假设所有数据都是具有相同结构的实体,数据之间是

摘要统计机器学习方法假设所有数据都是具有相同结构的实体，数据之间是独立且同分布的。然而在现实世界中存在着大量的半结构化关系数据，如超文本、Web 网页(网站)、 Web 图像、数字图书、教育资源等，这些数据集合由不同类型的数据对象组成，数据对象本身具有复杂的内部结构，同时不同数据对象之间通过（超）链接、引用等联系起来构成关系数据集合。传统的统计学习方法忽略了数据对象间的关系结构，而这些语义信息却有助于使学习算法具有更好的性能。因此本论文研究的中心内容就是如何在统计机器学习中明确地利用数据实例间的关系信息来构建健壮的学习模型。本论文采用的主要方法论是上下文建模与分析。在研究中，上下文被定义为使得目标对象具有唯一的和可理解的语义的关联对象和其他影响因素的集合；相应地，上下文依赖关系则是传达了明确语义相关的 “关系”。论文在对上下文分析和建模、统计关系学习等两方面的研究现状进行全面综述的基础上，以不同的应用问题为背景，开展了基于上下文分析的统计关系学习方法的研究。创新和研究成果如下：第一，提出了基于多粒度语义模型的 Web 站点挖掘方法。Web 站点可以看作是一种具有复杂结构的超文本文档。论文用多粒度树来作为站点的描述模型，同时提出四种上下文模型来刻画树中结点间的主题相关关系。在此基础上，论文采用隐 Markov 树作为树结构的统计模型，研究了两阶段分类和多粒度分类等两个 Web 站点分类算法，以期通过利用结点间的上下文依赖关系来优化分类性能。同时，还利用两阶段文本去噪程序和基于熵的页面树动态剪枝策略来减少网页下载开销并进一步提高分类准确率。实验结果表明，多粒度语义模型能有效地刻画复杂对象内部的上下文依赖关系，而相应的分类算法能在较少的时间开销内达到较高的站点分类准确率。第二，通过扩展依赖网络模型，提出了一种上下文依赖网络模型(CDN)来刻画链接结构中的上下文主题依赖关系。在各种现实的链接关系数据（如Web ）中，噪声链接或不相关 “关系”是普遍存在的。为刻画这种复杂的链接规律性，CDN 模型用链接特征和互信息来定量刻画链接对象间的上下文依赖关系，并利用一个简单但有效的上下文优化方法来优化对象的关系近邻，从而有效地减少噪声链接信息对分类过程的影响。CDN 模型具有对链接特征的选择能力，易于适应不同的内容模型，并比传统的 DN 具有更简单的参数估计。实验结果表明，CDN 模型在噪声数据集上具有较好的健壮性，并能为链接对象的属性提供较好的预测。第三，提出了链接语义核来刻画链接对象之间的语义关系。特别地，将链接图中的语义相关关系看作一种扩散过程，提出了一种 “语义扩散核”，并在核空间利用特征分解来获得潜在链接语义核。在此基础上描述了两类基于链接语义核的算法，即核化上下文依赖网络(KCDN)来进行协作分类，以及基于链接语义核的相关页发现算法。论文在 I 基于上下文的统计关系学习研究：摘要 WebKB 和 CORA 上执行协作分类实验，以及在 WT10G 上执行相关页发现实验，从而验证了链接语义核的表达能力。为更有效地计算在大数据量下的链接语义核，我们还提出了一种基于块的链接语义核计算方法 BlockKernel 。实验表明，BlockKernel 算法能在大数据量下具有良好的可扩展性。第四，提出了在线社会网络的影响力模型及其增量学习算法。此模型用隐 Markov 模型(HMM)来建模交互用户的状态序列及其相应的行为，并基于影响模型(IM)理论来建模用户之间在线群体交互行为的交互动力学。为满足应用问题中增量模型学习的需要，还提出基于梯度的方法来进行模型参数的增量训练。在线社会网络的影响力模型研究可以在协作过滤、信息推荐、群体决策、在线病毒式行销等方面都有广泛的应用。第五，基于视觉、文本、链接信息，研究并实现了基于多上下文模型的 Web 图像的语义分类系统 ConWic 。在ConWic 中，图像的相关文本建模为图像的多模态上下文，而与目标图像相链接的相关图像则建模为其链接上下文。在此基础上 ConWic 系统利用跨模态相关分析来刻画不同模态特征空间的语义相关模式，利用链接相关模型来刻画 Web 图像因链接关系而具有的语义相关关系。实验结果表明，当利用单一模态的特征信息时， Web 图像的分类效果往往不能达到较理想的要求，而综合利用视觉、文本和链接信息则有助于改进 W