- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北邮郭军web搜索chapter5研讨
* A topic combined intelligent technology and information network. A very important issue concerned by almost everyone. * introduce IIR from 6 aspects * PPM虽然已经被提出了二十多年,但却一直没有得到足够的重视。近年来,人们发现它在文本压缩中有非常突出的效果,对它的研究才随之升温。 σ的选择 RDM将Sw的能量谱用作选择σ的标准 J(m)通过前m个特征值在总能量谱中所占的比例来确定m的值 半监督学习 问题:样本不足 / 标注样本不足 找到有效的方法,使得只需手工标注少数数据,就能较准确地对全部数据进行自动标注 三类算法 在聚类过程中利用已标注的数据来引导聚类 在对标注样本进行学习之后,首先处理那些有较高置信度的未标注样本,然后迭代地把这些估计加入到标注样本集中 将数据看作图上的结点,将数据间的(已知的)相似性看作结点间的初始边长(权重),应用图的理论对数据进行聚类 半监督学习的形式定义 标注样本集合L = 标注样本的类别向量 用yij = 1 and yiq = 0 (q?j)表示xi点属于第j类,C为类别数 用fi表示,fi是元素值为0或1的C维向量 用Y表示已标注样本集的真实类别矩阵 用F表示数据集的类别指示矩阵 ,其类别指示向量 设未标注样本集合U = 半监督学习:在已知数据集L、U和Y的情况下估计F 基于图的算法 在图中估计样本的类别函数f,使其满足两个条件: 1) 对于已标注样本,其真实类别和通过f得到的结果越接近越好 2) 对于整个样本集,f 足够平滑 这两个条件可以通过正则化方法得到满足,即在求解的过程中用先验知识对求解过程加以约束,从而获得有意义的解 类别估计函数 f 一般由两项组成,一项是损失函数,用来评价条件1的满足度;另一项是正则化,保证条件2得到满足 基于随机场的半监督学习 首先在图上定义一个连续的随机场,然后根据能量函数最小化时调和函数的特性获得聚类结果 基于相似点应属于相同类别,得到二次能量函数: 式中W={wij}是图的权值矩阵,代表结点间的相似性 通过已标注数据,可以获得部分f(i)的取值 即,如果xi∈L ,则f(i)由yi确定 另,利用Gauss随机场赋予f一个概率分布 其中β为常数,Z为配分函数 令D为一个对角矩阵, ,表示点i的度, 则定义 由此,能量函数可以改写为: Gauss随机场可以改写为: 的定义: 组合Laplace矩阵 基于Gauss随机场的学习(1/2) 上式中的含义与图中的平滑概念是一致的 (f(i)取周围点的均值) 将权重矩阵W写成 分4块的分块矩阵 调和函数的解是在满足fl = yl的条件下使Δ f = 0 其中P为图的转移概率矩阵,P=D-1W 在能量函数达到最小的条件下,未标注样本点满足 基于Gauss随机场的学习(2/2) 基于局部一致和全局平滑的学习 用一个加权图来描述数据集,在满足与标注信息一致的条件下使样本集的类别平滑变化 定义图G = {V,W},wij的计算方法如下 根据相似度越大类别越可能一致的原则,定义目标函数 η是数据集中每个点与其近邻点间的差异度,越小越好 优化目标函数 聚类结果必须满足已标注的真实类别信息 将这些信息表示为等式: A为C×n的系数矩阵, yi为已标注样本i的真实类别向量(行向量) F为n×C的类别指示矩阵 b是C×C的对角矩阵,bjj等于标注样本中属于第j类的样本个数 最优的类别估计结果就是当xi∈L时,fi =yi 因此,半监督学习问题就转化为了如下的最优化问题 优化问题的求解 令矩阵 ,上述优化问题可转化为 将F取0/1值的条件进行松弛,使其取实数值 将优化问题变为标准的二次规划问题,定义Lagrange函数 令 可求得类别指示向量F的最优实数解为 其中 演进式学习 演进式学习—分类模型随着信息环境的变化而自动演进 随机过程(而不是随机变量)动态描述数据分布,使分类模型随着分布的变化而自动演进 分类模型永远是动态的,系统通过应用环境中的样本对模型不断进行修正 不再试图估计静态的“总体分布”,而只考虑当前时刻随机变量的分布如何从上一时刻的分布演进出来 演进学习通过小样本完成,因而可以提高学习效率 演进式学习的流程 不断地从应用环境中获取新样本进行模型的演进 增加自动采集新样本、接收识别(分类)模块的样本反馈、以及演进式模型学习和更新分类模型等过程 类别标注样本库中存放从应用环境中自动采集的数据样本和分类器识别后反馈的样本,作为模型演进的数据源 模型的演进方法 假设S(ti)是随机过程{X(t)}在ti时刻的一个学习样本集 相邻时刻学习样本集的关系是:
文档评论(0)