- 7
- 0
- 约5.53千字
- 约 6页
- 2023-08-31 发布于湖北
- 举报
基于核心库存的web网页分类方法
1 web页面分类
web页面分类是web数据结构的中心问题。近年来,许多国内外研究人员进行了大量研究。第一个研究思路主要包括两个方面:另一方面,有效的web页脚识别和资源选择方法。例如,一些研究人员在web页面分类中只考虑web网站的文本内容,或使用相邻网站的文本内容来分类web网站。另一方面,改进的web页脚分类算法(如knn和简单的贝叶斯(nb)被用于web页脚分类,尤其是支持向量机(svm)。然而,传统的web页脚分类研究通常针对小型数据集,其精度有限。
针对支持向量机不能有效处理大规模数据的问题,一些研究人员进行了大量探索.如对于大规模非线性数据集,Tsang等提出利用基于最小闭包球的核心向量机(Core Vetor Machine, CVM)以及改进的球向量机(Ball Vector Machine, BVM).本文根据Tsang等采用的选择核心向量子集的思路,提出一种基于近似最小闭包球原理的大规模中文网页分类方法(AMCB),通过将支持向量机求解转化为等价的近似最小闭包球求解问题,快速训练分类器,并结合改进的词性加权互信息选择方法,大大提高Web页面分类的大规模数据处理能力.
2 基于最小封闭包络原理的快速分类算法
2.1 svm的分类超平面
给定Web页面集合P={p1,p2,…,pn},对应的词条集合为T={t1,t2,…,tm},根据向量空间模型, 任意页面pi可表示为页面向量pi=(ωi1,ωi2,…,ωim)T,ωij为页面pi中第j个词条tj的权值.若页面集合P分为l个类别,且对应的类别集合为C={c1,c2,…,cl},那么Web页面分类就是根据某个分类函数f:P×C→{0,1},确定任意二元组Pi,ck∈P×C的值.
支持向量机的基本思想是将输入空间中的样本p通过非线性函数φ(·)映射到高维特征空间F={φ(p)|p∈P},
然后在特征空间F中构造最优超平面f(p)将不同类别的样本分开.SVM的分类超平面可定义如下:
f(p)=wΤφ(p)+b=n∑i=1αiyik(p?pi)+b(1)
其中W为样本映射φ(p)的权向量w=n∑i=1αiyiφ(pi)?{p}ni=1为训练向量, {yi}ni=1(yi∈-1,1)为类别取值,k(·)为核函数,b为常数.为使分类误差最小,软间隔两类支持向量机的主问题为:
minw?b?ρ?ξi∥w∥2+b2-2ρ+Cn∑i=1ξ2is.t.yi(wΤφ(pi)+b)≥1-ξi?i=1?2???n(2)
其对偶问题:
maxα=-n∑i?j=1αiαj(yiyjk(xi?xj)+yiyj+δijC)(3)
s.t.n∑i=1αi=1?αi≥0?i=1?2???n
其中δij为Kronecke delta函数,当i=j时,δij=1,否则δij=0.(3)式可写成等价的矩阵形式:
maxa-aΤ(Κ?yyΤ+yyΤ+1CΙ)α:α0,αTI=1 (4)
其中?为矩阵的Hadamard积,y=(y1,y2,…yn)T,I为n×n的单位矩阵, 1为n维的全1向量.
求解(3)式可得最优拉格朗日参数α,分类决策函数为:
f(p)=sgn(n∑i=1αiyik(pi?p)+b)(5)
训练支持向量机的时间复杂度为O(n3),空间复杂度为O(n2),随着训练集的增大,支持向量机的训练时间相应增加.
2.2 基于最小闭包球的分类算法
Tax等的研究表明,最小闭包球问题与硬间隔(hard margin) 支持向量域描述(SVDD)问题等价,即:给定某个核函数k,与其对应的特征映射函数为φ,若利用φ将数据集合χ映射到新的特征空间χφ,并设该特征空间的最小闭包球为MEB(Xφ,c,R).那么最小闭包球的求解问题等价为如下二次规划问题:
maxα-αΤΚα:α≥0,αT1=1 (6)
其中α=(α1,α2,…,αn)T为Lagrange乘子,0为n维元素全为0的向量,1为n维元素全为1的向量,K为n×n的核矩阵,其中Kij=K(xi,xj).且对应最小闭包球的圆心c和半径r可通过下式计算:
c=m∑i=1αiφ(pi)?r=√αΤdiag(Κ)-αΤΚα(7)
若令?k(pi,pj)=yiyjk(pi?pj)+yiyj+δijC,则 (4)式可化为如下形式:
maxα-α?Κα:α≥0,αT1=1 (8)
其中?Κij=[?k(pi,pj)].而对于任意点pi,若用?φ替代φ,其中为包含n个元素的向量,除第i个元素为1外,其他元素均为0.那么 (8)式对应的最小闭包球中心点和半径分别为:c=m∑i=1αi?φ(pi)?r=√αΤdiag(?Κ)-αΤ?Κα.
而在?φ映射的特征空间中,任意一点?φ(p)到中心c的欧式距离为
您可能关注的文档
最近下载
- TSG21-2016 固定式压力容器安全技术监察规程.docx VIP
- TSG 21-2016 固定式压力容器安全技术监察规程.pdf VIP
- 给排水科学与工程实习日志.pdf VIP
- 佐思汽研:汽车AI大模型TOP10分析报告.pdf VIP
- 问女朋友的100个问题.docx VIP
- (全国职业技能比赛:高职)GZ069纺织品检验与贸易赛项理论题库(纺织品检验部分).docx VIP
- (全国职业技能比赛:高职)GZ069纺织品检验与贸易赛项理论和实操题库共计9套.docx VIP
- 2026届作文备考之阅卷标准及高低分作文典例评析.docx
- 供应商反恐安全管理程序 2023年C-TPAT反恐安全管理程序.docx VIP
- 生成式人工智能在小学语文教学中的写作教学策略研究教学研究课题报告.docx
原创力文档

文档评论(0)