基于多结构特征的垃圾博客识别研究-山西大学计算机与信息技术学院.pdfVIP

下载本文档

10
0
约1.55万字
约 4页
2018-08-19 发布于天津
举报

基于多结构特征的垃圾博客识别研究-山西大学计算机与信息技术学院.pdf

4932 2010，31(22) 计算机工程与设计 ComputerEngineeringandDesign ·开发与应用 · 基于多结构特征的垃圾博客识别研究何苑，谭红叶 (1．山西大学计算机与信息技术学院，山西太原 030006；2．长治学院计算机系，山西长治 046011) 摘要：为解决日益严重的垃圾博客问题，对产生垃圾博客的作弊技术和相应的识别技术进行了研究。通过对大量中文垃圾博客的分析，结合对作弊者目的的研究，提出了从用户名、发帖时间间隔、博文内容、锚文本和链接地址、分类标签等博客的结构特征出发的特征提取方法。在特征提取的基础上，提出了基于多结构特征的识别方法，并建立了相应的系统模型。使用支持向量机和朴素贝叶斯模型作为分类器进行了实验，并与经典的基于内容的方法进行了对比。实验结果表明，在小的训练集上，基于多结构特征的方法正确率达到90％以上，比基于内容的方法提高了6个百分点，该方法可有效区分垃圾博客和正常博客。关键词：中文信息处理；垃圾博客；多结构特征；朴素贝叶斯；支持向量机中图法分类号：TP391 文献标识码：A 文章编号：1OO0—7024(2010)22．49320．04 ResearchofidentifyingSplogbasedonmultiplestructurefeatures HE YuanI． TAN Hong—ve。 (1．SchoolofComputerandInform~ionTechnology,ShanxiUniversity,Taiyuan030006，China； 2．DepartmentofComputer,ChangzhiUniversiyt,Changzhi046011，China) Abstract：Toaddressthegrowingproblem ofSplog，thegeneratingSplogtechnologyandthecorrespondingrecognitiontechn ologyare studied．ByanalyzingalargenumberofChineseSplogandthepurposesofSplogmaker, amethodofextractingfeaturefrom blog structurefeaturesisproposedsuchastheuser’Sname，posttimeinterval，postcontent，anchortextandlinkadrdess，classification labels．Basedonhtefeatureextraction，amethodbasedonthemultiplesturcturefeaturesisproposed．ThenaiveBayesianmodelna d supportvectormachinesareusedastheclassifierinourmode1．Experimentsonasmallrtaindatasetshow thatthemethodbasedonmul— tiplestrucutrefeautresreachesanaccuracyof90％．Comparedwiththecontendbasedmethod，proposedmethodincreasestheaccuracy by6％．indicatingthatthemethodcanidentifySplogseffectively~ Keywords：Chineseinformationprocessing；Splog；multiplestructurefeatures；naiveBayesian； supportvectormachine 局部的内容分析两方面出发，对相应作弊技术的进行了研究 0 引言讨论。在针对链接分析方面，基于信任度传播和链接工厂的垃圾博客指的是通过机器生成或随意抄袭产生的博客，链接分析方法针对垃圾网页的识别取得了很多不错的研究成其目的是吸引关注后

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于多结构特征的垃圾博客识别研究-山西大学计算机与信息技术学院.pdfVIP