- 3
- 0
- 约9.34千字
- 约 60页
- 2016-11-30 发布于重庆
- 举报
北邮郭军web搜索第五章
* A topic combined intelligent technology and information network. A very important issue concerned by almost everyone. * introduce IIR from 6 aspects * PPM虽然已经被提出了二十多年,但却一直没有得到足够的重视。近年来,人们发现它在文本压缩中有非常突出的效果,对它的研究才随之升温。 σ的选择 RDM将Sw的能量谱用作选择σ的标准 J(m)通过前m个特征值在总能量谱中所占的比例来确定m的值 半监督学习 问题:样本不足 / 标注样本不足 找到有效的方法,使得只需手工标注少数数据,就能较准确地对全部数据进行自动标注 三类算法 在聚类过程中利用已标注的数据来引导聚类 在对标注样本进行学习之后,首先处理那些有较高置信度的未标注样本,然后迭代地把这些估计加入到标注样本集中 将数据看作图上的结点,将数据间的(已知的)相似性看作结点间的初始边长(权重),应用图的理论对数据进行聚类 半监督学习的形式定义 标注样本集合L = 标注样本的类别向量 用yij = 1 and yiq = 0 (q?j)表示xi点属于第j类,C为类别数 用fi表示,fi是元素值为0或1的C维向量 用Y表示已标注样本集的真实类别矩阵 用F表示数据集的类别指示矩阵 ,其类别
原创力文档

文档评论(0)