- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
微博中水军的发现算法研究.
学号?: 1
常 州 大 学
硕 士 学 位 论 文
?
微博中水军的发现算法研究
研究生 徐小松 指 导 教 师 杨长春 教授 学科、专业名称 计算机应用技术 研究方向 Web数据挖掘 ?
2014 年 3 月
A Research about the Navy discovery
in Micro-blog
?
??
A Dissertation Submitted to
Changzhou University
??
By
?
Xu Xiaosong
(Computer Applications Technology)
?
?
Dissertation Supervisor: Prof. Yang Changchun
?
?
March,2014
常州大学学位论文原创性声明
本人郑重声明:所呈交的学位论文是本人在导师指导下独立进行的研究工作及取得的研究成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在论文中以明确方式标明。本人已完全意识到本声明的法律结果由本人承担。
作者签名: 签字日期: 年 月 日
学位论文版权使用授权的说明
本学位论文作者完全了解 常州大学 有关保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属常州大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。
保密论文注释:本学位论文属于保密范围,在 年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。
学位论文作者签名: 签字日期: 年 月 日
导师签名: 签字日期: 年 月 日
中文摘要
微博的出现给人们带来了翻天覆地的变化。通过微博我们可以很方便地获取信息,同时也可以使用它来关注自己想要关注的人或者关注他们的点点滴滴,因此越来越多的人正在使用它。然而,时间久了就会发现在微博中出现了许多重复的并且不断骚扰我们视线的内容,而且有些内容一度被认为是炒作,随即也相应地出现了网络水军这一称号。发现并且去除水军对于维护网络安全、网络真实性来说是非常有研究意义的一个话题。
本文就如何发现水军用户提出了一种方法,首先在数以万计的评论内容中找出相似的评论内容,然后在这些相似的评论内容中找出出现次数较多的用户,对这些用户进行统计分析找出水军。
本文的难点以及重点就是找出一种适合于在大规模文本中进行文本去重的方法。本文主要提出了一种改进的I-Match算法。他的主要核心思想就是根据评论内容中字、词权重的高低,顺序选取得到一个固定长度的字符串作为特征码。特征码经过最长公共子序列的精确计算以及md5特征映射得到此评论内容的一组特征码数值。特征码数值再经过B-Tree索引,能够从大规模的评论内容中有效地找出相似的评论内容。根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容的用户进行统计分析找出出现次数频繁的用户,初步定义为水军。再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性。通过实验对比可以发现改进的I-Match算法比原方法得到的结果更加的精确,它能够将那些漏字、添字或者有稍微改动的但是还是比较相似的文本给找出来。实验证明此方法可以有效地进行文本去重。
实验证明本文发现水军的算法可以有效地发现水军,希望本文的研究能够为微博平台提供一些帮助。
关键字:网络水军;文本相似;I-Match算法 ;最长公共子序列;MD5特征映射;
Abstract
Micro-blog brought enormous changes to people. We can find information from Micro-blog easily and we can pay close attention to people which we want to know, then we can see bits and pieces of their lives. So, mo
您可能关注的文档
最近下载
- 2025-2026学年人教版英语八年级上册UNIT 8 单元综合评估卷(含答案及听力原文,无听力音频).doc VIP
- 常用电工仪器仪表使用方法PPT课件.pptx VIP
- 2025年广东省华医网公需课考题答案—人工智能赋能制造业高质量发展.docx VIP
- 基于核心素养的初中生物实验教学设计研究报告教学研究课题报告.docx
- 物流园安全生产三项制度(安全生产责任制、制度、操作规程)汇编.pdf VIP
- 2019年山东省广播电视技术能手竞赛(网络安全)答案.doc VIP
- (9月3日)铭记历史,吾辈自强——纪念抗日战争胜利80周年初中主题班会课件.pptx VIP
- 07 保护及故障信息管理子站技术规范书(通用).doc
- 2025-2026学年小学信息科技湘教版2024三年级上册-湘教版(2024)教学设计合集.docx
- 第一届全国技能大赛贵州选拔赛砌筑项目技术文件1.docx VIP
文档评论(0)