一种基于不完整数据集网页分类技术.docVIP

下载本文档

22
0
约6.96千字
约 13页
2018-08-13 发布于福建
举报
版权申诉

一种基于不完整数据集网页分类技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于不完整数据集网页分类技术

一种基于不完整数据集的网页分类技术　　摘要：常用的网页分类技术大多基于普通文本分类方法，没有充分考虑到网页分类的特殊性――网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息，同时多数网页分类的测试集和训练集来源于同一个样本集而忽视了测试集中可能包含无类别样本的可能。基于向量空间模型，将样本集看成由有类别样本和无类别样本两部分组成，同时选择了样本集来自于相同的网站，在去除网页噪音基础上结合文本相似度算法和最优截尾法，提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果，提高分类精度。实验证明：LUD算法与传统的分类方法相比较而言，不但可以提高已有类别样本的分类精度，更主要的是提供了一种发现新类别样本的方法。　　关键词：不完整数据集;文本相似度;网页分类;网页去噪　　中图分类号：TP393.01文献标识码：A文章编号：1672-7800（2011）01-0143-03 　　　　　　作者简介：蔡崇超(1983－),男,黑龙江尚志人, 湖州职业技术学院助教,研究方向为数据挖掘、模式识别、生物信息学。1文本相似度算法　　本文用到的文本相似度算法基于向量空间模型，采用类别核心词特征向量加权方法，通过训练集为每个类别建立其对应的特征向量。基于得到的类别特征向量，构造一个文本类别相似度计算的自动分类器，使其能实现对未分类网页进行自动分类。在此模型中，每类文档都被表示成形如d=(t1,w1;t2,w2;…；tn,wn)的向量d，其中ti是类别核心词的词条项，wi是ti在类别d中的权值，表示了词条ti在类别d中的重要性。　　文本分类中文档向量的维数往往十分庞大，但是对于类别核心词而言，往往只需要在训练的过程中得到一些特殊的、能够很好地代表一类产品的特殊词，而对于那些经常出现的、通用的词则是无关分类精度的，可不予以考虑。这时就要考虑特征提取的方法，信息增益(Information-gain)、文档频率(document frequency)、互信息(mutual information)等都是常用的特征提取方法。本文采用词和类别的互信息(MI)做为特征提取的标准。　　Mi=logP（t|Cj）P(t) (1) 　　P（t|Cj）=1+∑|D|i=1N(t,di) 　　|V|+∑|V|k=1∑Di=1N(tk,di)(2) 　　其中P（t|Cj）表示词条t在类别Cj中出现的比重，|D|为该类的训练文本数，N(t,di)为词条t在文档di中的词频，|V|为总词数，∑|V|k=1∑Di=1N(tk,di)为该类别所有词条的词频和。P(t)同上面的计算公式类似，计算词条在所有训练文档中的比重。　　对于类别核心词权值的计算，本文采用普遍应用的TF*IDF公式　　 wi=TF*IDF(ti,d)=F（ti,d）*log|Tr|FTr(ti)(3) 　　其中F（ti,d）为词条ti在文档d中的词频，|Tr|为训练文档的总数，Fti为训练文档集中出现词条ti的文档数。为使得权值处于区间［0，1］中通常对wi作范化处理，即取其中n为向量维数。　　当得到了上述的类别特征词和特征向量以后，我们通过公式(4)来计算每一个文本和任意一类的相似度，max(s(di,tj))表示测试文本属于第j类。完成分类。其中di表示文本，tj表示类别，Pj,k表示类别特征词。　　S(Di,Tj)=∑wik??tN∧wik??DPj,k(4) 　　2基于不完整数据集的网页分类技术　　2.1网页去噪　　网页去噪是网页分类的前提也是网页分类的一部分，网页去噪的好坏直接影响到网页分类的精度，因此在这里简单地介绍一下网页去噪技术。Bar-Yossef等提供了一些数据挖掘算法来得到模板，并将这些模板做为噪音信息来处理。这个方法的优点在于适合大多数网站，但也因此牺牲了去噪精度。Kao等则通过一些诸如之类的特殊标签发现噪音信息，这种方法的缺点在于它只适合少数极特殊网页，不具备通用性。文献[7]解决了上述两种方法的问题，即做到了通用性又保证了算法的精度，但它仍存在以下两方面问题：①算法过于复杂，不适合处理大批量的网页；②会将部分定义为有意义的信息当作噪音来处理。　　我们的方法基于文献[7]，同时改进了它存在的两个问题。具体去除噪音信息的步骤如下：①将普通的基于HTML的网页转化为DOM(Document Object Model)结构；②将DOM结构的网页转化为一种新的数据类型PST (Page Style Tree)结构；③将两个或者两个以上的PST合并成SST (Site Style Tree) ，同时标记相应的信息在SST树的每个节点上；④根据