基于Nave Bayes和TF―IDF真假新闻分类.docVIP

下载本文档

113
0
约5.53千字
约 12页
2018-08-28 发布于福建
举报
版权申诉

基于Nave Bayes和TF―IDF真假新闻分类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Nave Bayes和TF―IDF真假新闻分类

基于Nave Bayes和TF―IDF真假新闻分类　　摘要：信息爆炸的时代，大量的新闻每天充斥的我们的生活，海量的新闻总是能够引导着人们对社会中发生的事件做出自己的判断。假新闻的错误引导将会对社会起到消极的作用，于是该文提出对真假新闻进行分类的方法。该文结合TF-IDF算法和朴素贝叶斯算法，对新闻中的词条进行加权，之后重新定义朴素贝叶斯分类器，并对新闻进行分类。最后，我们进行了多组实验，并取得了多组实验的平均值作为本次实验的最终结论。　　关键词：真假新闻；TF-IDF；朴素贝叶斯；分类　　中图分类号：TP181 文献标识码：A 文章编号：1009-3044（2018）04-0184-03 　　Fake or Real News Classification Based on Na?ve Bayes and TF-IDF 　　CAI Yang， FU Xiao-bin 　　（Southwest Petroleum University School of Computer Science， Chengdu 610500， China）　　Abstract：In this era of information explosion， a lot of news full of our lives every day， massive news is always able to guide people to the events of society to make their own judgments. The false guidance of false news will have a negative effect on society， so this paper proposes a method to classify true and false news. In this paper， we combined the TF-IDF algorithm and the naive Bayesian algorithm to weight the entries in the news， and then redefine the naive Bayesian classifier and classify the news. Finally， we conducted a number of experiments， and made the average of multiple sets of experiments as the final conclusion of this experiment. 　　Key words： Fake or Real News；TF-IDF； Na?ve Bayes； Classification 　　新闻的真实性是新闻的立命的根本，但是近些年来，假新闻层出不尽，影响了新闻媒体的权威性和公信力；导致错误的舆论出现；侵害了公民的权利；浪费了时间和金钱，对社会造成了巨大的影响。假新闻影响了社会秩序和经济，并且严重的侵犯了新闻当事人的权益。所以我们实现了本文提及的方法，用于高效的判断假新闻。这对我们来说意义重大，对社会来说也能起到一定程度的积极作用。　　1 数据预处理　　1.1 去停用词　　Hans Peter Luhn创造了这个短语并在他的研究中应用这个概念。在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或者之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。但是，并没有一个明确的停用词表能够适用于所有的工具。　　对于一个给定的目的，任何一类的词语都可以被选作停用词。通常意义上，停用词大致分为两类。一类是人类语言中包含的功能词，这些功能词极其普遍，与其他词相比，功能词没有什么实际含义，比如the、is、at、which、on等。这些词的应用十分广泛，但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率，所以通常会把这些词从问题中移去，从而提高搜索性能。　　2.2 正则表达式　　正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串，我们可以达到如下的目的：　　1）给定的字符串是否符合正则表达式的过滤逻辑；　　2）可以通过正则表达式，从字符串中获取我们想要的特定部分。　　本文使用正?t去