基于支持向量机网页分类研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于支持向量机网页分类研究

基于支持向量机网页分类研究   摘 要:探讨了网页的文本分类,阐明了多层文本的概念,分析了支持向量机的数学模型及基于支持向量机的层次文本分类算法,提出了基于支持向量机的网页分类方法流程,指出了进一步研究的要点。   关键词:支持向量机;网页分类;多层文本分类   中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2011)09-0037-03         1 多层文本分类??   人们通常所讨论的文本分类问题中,类别间是独立的,认为它们之间没有相互联系,称之为单层(flat)文本分类。而在类别较多且关系比较复杂的情况下,如Internet上丰富的Web信息资源管理等应用,就需要更好的多层信息组织方式。??   多层(hierarchical)文本分类是指多层类别关系下的分类问题,面对的类别间存在类似于树或有向非循环图的多层分级类别结构,可以更好地支持浏览和查询,也使得部分规模较大的分类问题通过分治的方法得到更好的解决。??   多层文本分类一般采用big-bang或自顶向下基于级别两种策略。前者在整个分类过程中使用同一个分类器,即将处于类别树结构上的所有叶节点类别看成平等的类,这本质上还是一种单层分类,不能很好地应用类别间的关系;后者可为不同的级别训练不同的分类器,枝节点的分类器只关心当前的不同分枝。Sun等人讨论了基于类别相似度和类别距离的多层分类效果评价方法,给出了用于说明在不同级别上调度分类器的规范语言。Ruiz的博士论文中介绍了早期提出的几种多层分类方法,并给出自己的HME(hierarchical mixture of expert)模型。Huang等人介绍了用于从Web语料中建立多层分类器的LiveClassifer。??      2 支持向量机(SVM)??   支持向量机(Support Vector Machine)由Vladimir Vapik和他的同事于1992年发表,20世纪90年代中后期得到全面深入的发展,现在已经成为机器学习和数据挖掘的工具之一。SVM对复杂的非线性决策边界的建模能力是高度准确的。??   支持向量机(SVM)是一种算法,使用一种非线性映射,将原训练数据映射到较高的维,在新的维上,它搜索线性最佳分离超平面(即将一类的元组与其他类分离的“决策边界”)。使用一个适当的对足够高维的非线性映射,两类的数据可以被超平面分开。SVM使用支持向量(“基本”训练元组)和边缘(由支持向量定义)发现该超平面。??   2.1 数据线性可分??   SVM通过最大边缘超平面(Maxinum Marginal Hyperplane)来找最佳超平面。??   分离超平面可以记作??W#8226;X+b=0,其中,W是权重向量,即W={w??1,w??2,…,w??n},n是属性数,b??是偏倚(bias)。??   最优超平面要求超平面不仅可以将两类无错误分开,而且要使两类的分类间隔最大。位于分离超平面上方的点满足:   ?И?W#8226;X+b>0?И?   位于分离超平面下方的点满足:   ?И? W#8226;X+b<0?И?   调整权重,使得定义边缘“侧面”的超平面记为:   ?И?H??1:w??0+w??1x??1+w??2x??2+…+   w??nx??n≥1,对于所有y??i=+1   H??2:w??0+w??1x??1+w??2x??2+…+   w??nx??n≤1,对于所有y??i=-1?И?   落在??H??1或其上方的元组属于类+1,落在H??2?Щ蚱湎路降脑?组属于类-1。结合上面两式,得:   ?И? y??i(w??0+w??1x??1+w??2x??2+…+   w??nx??n)≥1,??i?И?   落在超平面??H??1或H??2上的训练元组使得上式成立的成为支持向量。从分离超平面到H??1上任意点的距离是1‖W‖,其中‖w‖是欧几里得范数。根据定义,它等于H??2上任一点到分离超平面的距离。因此最大边缘是2‖W‖?А*?   根据拉格朗日公式,最大边缘超平面可以改写成决策边界:   ?И?d(X??T)=∑li=1y??iα??iX??iX??T+b??0?И?   其中,??y??i是支持向量X??i的类标号,X??T是检验元组,α??i是拉格朗日乘子,b??0??是SVM算法自动确定的数值参数,l是支持向量的个数。??   2.2 数据非线性可分??   解决非线性问题,可以通过非线性变化转化为另一个高维特征空间的线性问题,在这个变换空间中求最优的线性分类超平面。仔细观察线性情况下的分类函数可知,其函数只包括待分类样本与训练样本中的支持向量的内积,它的求解过程

您可能关注的文档

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档