北邮郭军web搜索chapter5研讨.ppt

下载文档 降价啦

6
0
约9.27千字
约 60页
2017-05-08 发布于湖北
举报
版权申诉
保障服务

北邮郭军web搜索chapter5研讨.ppt

1、本文档共60页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

北邮郭军web搜索chapter5研讨

* A topic combined intelligent technology and information network. A very important issue concerned by almost everyone. * introduce IIR from 6 aspects * PPM虽然已经被提出了二十多年，但却一直没有得到足够的重视。近年来，人们发现它在文本压缩中有非常突出的效果，对它的研究才随之升温。 σ的选择 RDM将Sw的能量谱用作选择σ的标准 J(m)通过前m个特征值在总能量谱中所占的比例来确定m的值半监督学习问题：样本不足 / 标注样本不足找到有效的方法，使得只需手工标注少数数据，就能较准确地对全部数据进行自动标注三类算法在聚类过程中利用已标注的数据来引导聚类在对标注样本进行学习之后，首先处理那些有较高置信度的未标注样本，然后迭代地把这些估计加入到标注样本集中将数据看作图上的结点，将数据间的(已知的)相似性看作结点间的初始边长(权重)，应用图的理论对数据进行聚类半监督学习的形式定义标注样本集合L = 标注样本的类别向量用yij = 1 and yiq = 0 (q?j)表示xi点属于第j类，C为类别数用fi表示，fi是元素值为0或1的C维向量用Y表示已标注样本集的真实类别矩阵用F表示数据集的类别指示矩阵，其类别指示向量设未标注样本集合U = 半监督学习:在已知数据集L、U和Y的情况下估计F 基于图的算法在图中估计样本的类别函数f，使其满足两个条件： 1) 对于已标注样本，其真实类别和通过f得到的结果越接近越好 2) 对于整个样本集，f 足够平滑这两个条件可以通过正则化方法得到满足，即在求解的过程中用先验知识对求解过程加以约束，从而获得有意义的解类别估计函数 f 一般由两项组成，一项是损失函数，用来评价条件1的满足度；另一项是正则化，保证条件2得到满足基于随机场的半监督学习首先在图上定义一个连续的随机场，然后根据能量函数最小化时调和函数的特性获得聚类结果基于相似点应属于相同类别，得到二次能量函数：式中W={wij}是图的权值矩阵，代表结点间的相似性通过已标注数据，可以获得部分f(i)的取值即，如果xi∈L ，则f(i)由yi确定另，利用Gauss随机场赋予f一个概率分布其中β为常数，Z为配分函数令D为一个对角矩阵, ，表示点i的度, 则定义由此，能量函数可以改写为： Gauss随机场可以改写为：的定义: 组合Laplace矩阵基于Gauss随机场的学习(1/2) 上式中的含义与图中的平滑概念是一致的 (f(i)取周围点的均值) 将权重矩阵W写成分4块的分块矩阵调和函数的解是在满足fl = yl的条件下使Δ f = 0 其中P为图的转移概率矩阵，P=D-1W 在能量函数达到最小的条件下，未标注样本点满足基于Gauss随机场的学习(2/2) 基于局部一致和全局平滑的学习用一个加权图来描述数据集，在满足与标注信息一致的条件下使样本集的类别平滑变化定义图G = {V,W}，wij的计算方法如下根据相似度越大类别越可能一致的原则，定义目标函数 η是数据集中每个点与其近邻点间的差异度，越小越好优化目标函数聚类结果必须满足已标注的真实类别信息将这些信息表示为等式： A为C×n的系数矩阵， yi为已标注样本i的真实类别向量(行向量) F为n×C的类别指示矩阵 b是C×C的对角矩阵，bjj等于标注样本中属于第j类的样本个数最优的类别估计结果就是当xi∈L时，fi =yi 因此，半监督学习问题就转化为了如下的最优化问题优化问题的求解令矩阵，上述优化问题可转化为将F取0/1值的条件进行松弛，使其取实数值将优化问题变为标准的二次规划问题，定义Lagrange函数令可求得类别指示向量F的最优实数解为其中演进式学习演进式学习—分类模型随着信息环境的变化而自动演进随机过程(而不是随机变量)动态描述数据分布，使分类模型随着分布的变化而自动演进分类模型永远是动态的，系统通过应用环境中的样本对模型不断进行修正不再试图估计静态的“总体分布”，而只考虑当前时刻随机变量的分布如何从上一时刻的分布演进出来演进学习通过小样本完成，因而可以提高学习效率演进式学习的流程不断地从应用环境中获取新样本进行模型的演进增加自动采集新样本、接收识别(分类)模块的样本反馈、以及演进式模型学习和更新分类模型等过程类别标注样本库中存放从应用环境中自动采集的数据样本和分类器识别后反馈的样本，作为模型演进的数据源模型的演进方法假设S(ti)是随机过程{X(t)}在ti时刻的一个学习样本集相邻时刻学习样本集的关系是: