基于半监督的社交网络垃圾用户检测的研究-软件工程专业论文.docxVIP

下载本文档

7
0
约4.96万字
约 56页
2019-02-15 发布于上海
举报
版权申诉

基于半监督的社交网络垃圾用户检测的研究-软件工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

研究生优秀毕业论文大连理工大学硕士学位论文摘大连理工大学硕士学位论文摘要近年来，随着新兴技术的发展以及web 2．O的普及，社交网络呈现了爆炸式的增长，已取代了传统的门户网站和博客网站成为了最受欢迎网民关注的网络服务平台。社交网络每天还会产生大量的信息，由于其开放性实时性，使得原本再网页搜索作弊行为更多得转移到社交网络上来，这些垃圾作弊信息严重的影响了用户在社交平台的体验，同时浪费了大量用户的时间，如何过滤这些垃圾信息逐步引起了各个社交网络平台的重视。为了检测限制这些垃圾信息发布者，已经有很多研究者提出了解决方案，而其中监督学习分类的方法，占了绝大多数，这种检测方法利用挖掘账户的信息特征，建立分类模型，对在线对账户进行预测分类，从而过滤限制这些垃圾信息。但这种监督学习需要有足够但训练集，而社交网络用户量庞大，不可能通过人工的方式对大量数据进行标记，然而如果没有足够且准确适当的标记数据，监督分类模型很容易出现偏差。因此，如果能利用少量的标记数据，建立检测模型，将会节省大量对人力时间资源。本文分析发现社交网络缺少大量标记数据对问题，通过调研提出一种半监督垃圾账户检测机制，可以通过少量的标记数据同时挖掘用户的网络信息，不断预标记用户，再从中选出置信度较高的用户，作为新的训练集，然后重新训练学习模型，通过不断的迭代最终得出一个优化的分类模型。本文首先对社交网络作弊进行了介绍，接着介绍了本文用到的数据挖掘的知识，然后对现有对研究做了深入分析后，详细阐述了半监督垃圾信息检测的算法，最后通过真实的TWitter数据集，验证了模型的正确性，本文提出的模型可以在标记数据不足的情况下，依然能训练学习得到和监督分类一样高效的分类模型。关键词：半监督学习；社交网络垃圾；社交网络图万方数据基于半监督的社交网络垃圾用户检测的研究Semi-Supervised 基于半监督的社交网络垃圾用户检测的研究 Semi-Supervised Social Spammer Detection Abstract Social ne觚rks，like T、访tter aIld Sina Weibo，are novel web ser订ces f．or 011line commumcation and i11f．omation dissemillation．People in social ne铆orks can share interested topics via sending short messages wmch contains plain text aIld URLs．Tms kind of web sen，ices W11ich combille bom micro-bloggiIlg and social relationsMp has attracted more a11d more users．At也e same time，social network haVe become the main伽：get web platf．orm for spammers tO spread皿wanted iIlf．0nnation． Spammers create large number of compromised or f扯e accounts to disseminate ham^11 info眦ation ill social networks like T埘饿r．Identi母ing social spanmers has become a challengillg problem。Most of existillg algoriⅡ1IIls for social SpaI】珊er detection are based on supervised learmng，which needs a large锄oum of labeled da土a for乜ainjng．Ho、veVer’ labeling su￡Eicient仃枷ng set costs too much resources，which makes supervised le批g impractical for social spammer detection． 111 tllis p印er， we propose a semi—supen，ised 丹amework for social spanlmer detection(SS SD)，wKch combines tlle supeⅣised classification model州tll a ran硒ng scheme on me social graph．First，we