基于多结构特征的垃圾博客识别研究-山西大学计算机与信息技术学院.pdfVIP

  • 10
  • 0
  • 约1.55万字
  • 约 4页
  • 2018-08-19 发布于天津
  • 举报

基于多结构特征的垃圾博客识别研究-山西大学计算机与信息技术学院.pdf

4932 2010,31(22) 计算机工程与设计 ComputerEngineeringandDesign ·开发与应用 · 基于多结构特征的垃圾博客识别研究 何 苑 , 谭 红叶 (1.山西大学 计算机与信息技术学院,山西 太原 030006;2.长治学院计算机系,山西 长治 046011) 摘 要:为解决 日益严重的垃圾博客 问题 ,对产生垃圾博客的作弊技术和相应的识别技术进行 了研究。通过对大量中文垃 圾博客的分析,结合对作弊者 目的的研究,提 出了从用户名、发帖时间间隔、博文内容、锚文本和链接地址、分类标签等博客 的结构特征出发的特征提取方法。在特征提取的基础上,提出了基于多结构特征的识别方法,并建立 了相应的系统模型。使 用支持向量机和朴素贝叶斯模型作为分类器进行 了实验,并与经典的基于内容的方法进行 了对 比。实验结果表明,在小的 训练集上,基于多结构特征的方法正确率达到90%以上 ,比基于内容的方法提高了6个百分点,该方法可有效区分垃圾博客 和正常博客 。 关键词:中文信息处理;垃圾博客;多结构特征;朴素贝叶斯;支持向量机 中图法分类号:TP391 文献标识码:A 文章编号:1OO0—7024(2010)22.49320.04 ResearchofidentifyingSplogbasedonmultiplestructurefeatures HE YuanI. TAN Hong—ve。 (1.SchoolofComputerandInform~ionTechnology,ShanxiUniversity,Taiyuan030006,China; 2.DepartmentofComputer,ChangzhiUniversiyt,Changzhi046011,China) Abstract:Toaddressthegrowingproblem ofSplog,thegeneratingSplogtechnologyandthecorrespondingrecognitiontechn ologyare studied.ByanalyzingalargenumberofChineseSplogandthepurposesofSplogmaker, amethodofextractingfeaturefrom blog structurefeaturesisproposedsuchastheuser’Sname,posttimeinterval,postcontent,anchortextandlinkadrdess,classification labels.Basedonhtefeatureextraction,amethodbasedonthemultiplesturcturefeaturesisproposed.ThenaiveBayesianmodelna d supportvectormachinesareusedastheclassifierinourmode1.Experimentsonasmallrtaindatasetshow thatthemethodbasedonmul— tiplestrucutrefeautresreachesanaccuracyof90%.Comparedwiththecontendbasedmethod,proposedmethodincreasestheaccuracy by6%.indicatingthatthemethodcanidentifySplogseffectively~ Keywords:Chineseinformationprocessing;Splog;multiplestructurefeatures;naiveBayesian; supportvectormachine 局部的内容分析两方面出发,对相应作弊技术的进行 了研究 0 引 言 讨论。在针对链接分析方面,基于信任度传播和链接工厂的 垃圾博客指的是通过机器生成或随意抄袭产生的博客, 链接分析方法针对垃圾网页的识别取得了很多不错的研究成 其 目的是吸引关注后

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档