- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Nave Bayes和TF―IDF真假新闻分类
基于Nave Bayes和TF―IDF真假新闻分类
摘要:信息爆炸的时代,大量的新闻每天充斥的我们的生活,海量的新闻总是能够引导着人们对社会中发生的事件做出自己的判断。假新闻的错误引导将会对社会起到消极的作用,于是该文提出对真假新闻进行分类的方法。该文结合TF-IDF算法和朴素贝叶斯算法,对新闻中的词条进行加权,之后重新定义朴素贝叶斯分类器,并对新闻进行分类。最后,我们进行了多组实验,并取得了多组实验的平均值作为本次实验的最终结论。
关键词:真假新闻;TF-IDF;朴素贝叶斯; 分类
中图分类号:TP181 文献标识码:A 文章编号:1009-3044(2018)04-0184-03
Fake or Real News Classification Based on Na?ve Bayes and TF-IDF
CAI Yang, FU Xiao-bin
(Southwest Petroleum University School of Computer Science, Chengdu 610500, China)
Abstract:In this era of information explosion, a lot of news full of our lives every day, massive news is always able to guide people to the events of society to make their own judgments. The false guidance of false news will have a negative effect on society, so this paper proposes a method to classify true and false news. In this paper, we combined the TF-IDF algorithm and the naive Bayesian algorithm to weight the entries in the news, and then redefine the naive Bayesian classifier and classify the news. Finally, we conducted a number of experiments, and made the average of multiple sets of experiments as the final conclusion of this experiment.
Key words: Fake or Real News;TF-IDF; Na?ve Bayes; Classification
新闻的真实性是新闻的立命的根本,但是近些年来,假新闻层出不尽,影响了新闻媒体的权威性和公信力;导致错误的舆论出现;侵害了公民的权利;浪费了时间和金钱,对社会造成了巨大的影响。假新闻影响了社会秩序和经济,并且严重的侵犯了新闻当事人的权益。所以我们实现了本文提及的方法,用于高效的判断假新闻。这对我们来说意义重大,对社会来说也能起到一定程度的积极作用。
1 数据预处理
1.1 去停用词
Hans Peter Luhn创造了这个短语并在他的研究中应用这个概念。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或者之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。
对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如the、is、at、which、on等。这些词的应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。
2.2 正则表达式
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串,我们可以达到如下的目的:
1) 给定的字符串是否符合正则表达式的过滤逻辑;
2) 可以通过正则表达式,从字符串中获取我们想要的特定部分。
本文使用正?t去
您可能关注的文档
最近下载
- 2025至2030中国金属铬行业调研及市场前景预测评估报告.docx
- 老年衰弱综合征的护理.pptx VIP
- 国开大学老年心理健康形考任务(1-5)参考答案及考核方式(1).pdf VIP
- 南京 2023年历年真题考试:妇产科护理学(一)历年真题汇编(共169题).pdf VIP
- 铁路混凝土结构耐久性修补及防护(报批稿)20191120-v3.pdf
- (最新)人教版小学数学三、四、五、六年级上下册知识点汇总_图文.pdf VIP
- 多晶硅厂案例分析.pdf VIP
- 《垃圾填埋场安全应急预案》.docx VIP
- 2025 中医院工作计划.docx VIP
- 新八年级(上)英语Unit3单元测试A卷(牛津译林版).pdf VIP
原创力文档


文档评论(0)