一种网页分类中基于图半指导学习算法.docVIP

下载本文档

0
0
约3.08千字
约 7页
2018-08-13 发布于福建
举报
版权申诉

一种网页分类中基于图半指导学习算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种网页分类中基于图半指导学习算法

一种网页分类中基于图的半指导学习算法　　摘要：提出一种基于图的半指导学习算法用于网页分类。采用k近邻算法构建一个带权图，图中节点为已标志或未标志的网页，连接边的权重表示类的传播概率，将网页分类问题形式化为图中类的概率传播。为有效利用图中未标志节点辅助分类，结合网页的内容信息和链接信息计算网页间的链接权重，通过已标志节点，类别信息以一定概率从已标志节点推向未标志节点。实验表明，本文提出的算法能有效改进网页分类结果。　　关键词：图模型；半指导学习；网页分类；链接信息　　中图分类号：TP301．6文献标志码：A 　　文章编号：1001－3695(2008)03－0735－03 　　　　0引言　　　　网页分类作为一种传统的机器学习任务，通常采用有指导学习，通过对一系列训练样本的分析来预测未知网页的类别归属。实际应用中，未分类的网页随处可得，已分类的网页却很少。因为对网页分类需要借助领域专家的经验，并且要花费大量的人力、物力，代价昂贵。为了解决这一矛盾，人们尝试用半指导学习的方法进行分类。半指导学习就是利用少量已标志的数据和大量未标志数据构造分类器，对未标志数据进行分类。由于半指导学习只需要少量的标志数据，并且能获得较高的分类精度，近年来受到广泛关注。　　　　典型的半指导分类方法有生成混合数据模型、selftraining、cotraining、基于最大间隔和基于图的方法。文献[1]中，大量未标志数据和少量已标志数据构成混合数据模型，假定每个数据所属类别服从高斯分布，半指导学习运用EM算法对数据所属类别进行估计。文献[2]首先利用训练集中的数据训练一个分类器，对未分类的数据进行标志；然后选择那些最确定分类类别的数据加入到训练集中，重复训练过程(selftraining)。从训练方法上可以看出，如果训练过程中出现误分类，分类错误会自我增强，导致最终分类失败。Blum等人[3]提出的协同训练（cotraining）方法假设对象的特性可被分解为两个条件独立的子特征，首先利用两个子特征在训练集上分别训练出两个分类器；然后用训练好的两个分类器分别为未标志的数据分类，并将新标志的数据作为新的训练数据增加到对方训练集中，以便重新对分类器进行训练。Cotraining减少了selftraining中错误会不断被加强的危险，但cotraining需要足够且冗余的特征以分别训练两套分类器的要求相当苛刻。Zhou zhihua等人[4]提出了tritraining方法，使用了第三个分类器。如果前两个分类器对未标志数据的分类结果一致，那么这个分类结果用于训练第三个分类器，以在数据集不具备多个子特征的情况下降低协同训练的条件要求。文献[5]介绍了基于最大间隔的半指导学习方法，假定决策边界在低密度区，并利用未标志数据确定这些区域以达到分类效果。文献[6]在实例集上构造一个图，利用高斯随机域和谐函数方法学习图中未标志节点的类别。　　网页分类中，由于同类型的网页存在较强的共现模式与依赖性，图模型可以较好地体现这种关系。本文提出了一种基于图的半指导学习算法用于网页分类。为了达到较高的分类精度，针对网页特点，构建一个kNN图，结合网页的内容特征和链接特征计算网页间的相似度，决定其向邻居节点传播的概率。实验结果表明采用本文所介绍的学习算法能有效利用未标志数据获得较高的分类精度。　　　　1图的构造方法　　　　在图模型中，图中的节点为已标志的和未标志的数据，边的权重体现对应两个连接节点的关联程度，通常可以用相似度或距离来衡量，如图1所示。常用的创建图的方法有全连接图、稀疏图、kNN图、??NN图等。全连接图中任意两个节点间都有一条权重边相连，两个节点越相似，连接边的权重越大。全连接图可采用统一的权重计算方法计算连接边的权重，但计算量较大。稀疏图中节点间的连接边较少，相应的计算量较小，有时可以获得很好的性能，但如何选取连接边以及连接边的权重计算都需要在大量先验知识的前提下精心设计。kNN图中任意两个节点i和j之间是否有一条连接边取决于i是否为j的k近邻或j是否为i的k近邻。其中k为可调参数，用于控制图中边的密度。∈NN图中连接边的存在与否由节点间的距离决定。对任意两节点i和j，只有满足d(i, j)≤∈，i，j间才有连接边。因此，参数∈用于控制节点的邻居半径。无论采用哪种方法构造图，图模型中只有少数节点是已标志的，大部分节点都是未标志的，但节点所属的类可以通过连接边向它的邻居节点传播，就像已标志节点将类别信息推向未标志节点。因此，基于图的半指导学习方法可以充分利用未标志节点达到分类效果。　　实际应用中，根据相关领域知识构建图对于获得较高的分类精度具有重要意义。本文采用k近邻的方法构建图，图中每个节点代表一个网页，连接边