- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要
摘 要
博客本身所具有的免费、自由和可共享的特点,使博客评论中出现了大量包含有广
告、超链接、谩骂或是诽谤等信息的垃圾评论。这给网络用户阅读评论和与他人交流带
来了不便,同时还影响了对评论内容的挖掘。
本文面向博客领域进行垃圾评论的识别研究,主要工作如下:
在评论识别时,考虑到评论的长短不一,对只包含网络常用语的短小评论,如果用
评论与对应文章比较相似度的方法来识别,容易将正常的短小评论识别为垃圾评论。因
此,本文对不同长度的评论采取了不同的识别方法。针对短小评论,通过比较短小评论
中包含的垃圾常用语和正常的网络常用语的个数来判断短小评论的类别,进而过滤出短
小的垃圾评论。
识别较长评论时,本文改进了传统的余弦相似度公式,将词语间的近义关系、词语
存在的位置信息和主题词相似度信息融入了公式中,弥补了传统的相似度公式无法识别
近义词的不足。同时,考虑到主题词与话题之间的相关程度会随着话题的转移而有所变
化,提出了利用上述改进的相似度公式对较长评论进行k轮识别的方法。在每轮的识别
过程中,结合识别出的正常评论和词语间的近义关系对主题词的权重进行调整,从而体
现主题词与话题之间的相关程度;然后再从正常评论中选出主题词的近义词和评论中的
高频词汇来对主题词进行扩展,以适应话题的发展变化。
最后,在所有评论识别完毕后,利用网络常用语和更新后的主题词对识别出的垃圾
评论进行二次过滤,降低了正常评论被识别为垃圾评论的可能性。
实验结果表明,利用本文的方法进行评论的识别,在一定程度上提高了识别垃圾评
论的准确率和召回率。
关键词 博客 垃圾评论 近义词 主题词相似度 余弦相似度
I
Abstract
Abstract
Blog itself has the characteristics of free, freedom, and share, so a large number of spam
comments which include the information of advertising, hyperlinks, abusive or defamatory
etc. appear in blog. These spam comments bring inconvenience to read comments and
interaction each other for network users, and also affect mining the content of the comments.
Our paper make spam comments identify for the comments in blog area, the main works
include the following aspects:
When identifying the comments, taking into account the length of comments may be
long or short, if identify the short reviews which only contains common net words use the
method of comparing the similarity of comments and articles, it is easy to identify the normal
short comment as spam, so the paper takes different methods to identify the comments. To
the short comments, we compare the number of garbage words and normal words in t
文档评论(0)