- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速-中国云计算
应用论文
一种基于Hadoop 平台的并行朴素贝叶斯
网络舆情快速分类算法*
马 宾 1,2,3 殷立峰 1
1( 山东政法学院信息科学技术系 济南 250014)
2(证据鉴识山东省重点实验室( 山东政法学院) 济南 250014)
3( 山东大学电气工程学院 济南 250061 )
摘要: 【目的 】研究Hadoop 平台下一种改进的并行朴素贝叶斯算法并实现网络舆情信息分类。【应用背景 】网
络舆情信息存在数据量大, 分散度高, 数据非结构化等特点, 现有技术难以实现网络舆情的准确、快速分类。【方
法 】利用Hadoop 平台分布式数据存储与并行处理的优良特性, 实现朴素贝叶斯分类算法的并行化运行; 将采集
的舆情文档依照HDFS 架构进行本地化存储, 并通过MapReduce 进程完成并行分类处理。【结果 】对MapReduce
封装后的并行朴素贝叶斯分类算法进行性能测试, 结果表明本算法分类效率比集中式舆情分类算法提升 82%,
分类准确率达到85%以上。【结论 】本算法能够有效提升网络舆情分类能力与分类效率。
关键词: 网络舆情 Hadoop MapReduce 朴素贝叶斯 分类
分类号: TP391.1
1 引 言 数据的分类处理[5] 。因此, 研究一种基于Hadoop 平台
的并行朴素贝叶斯分类算法实现的网络舆情快速分类
网络舆情是指在互联网上形成的对社会现象不同
处理, 提升网络舆情分类的响应速度和分类能力, 实
观点的网络舆论[1] 。随着社交媒体、智能终端等新技
现网络舆情在线分类、分析与监测, 对于引导网络舆
术的快速发展, 互联网每日产生的网络舆情数据正以
情健康发展具有重要意义。
几何形式增加, 因而, 对海量的舆情信息进行分类管
理并及时发现敏感信息, 实现不同主题舆情信息的收 2 需求分析及技术思路
集、分析、监测、预警成为迫切需求[2] 。网络舆情因
具有数据量大、信息分散度高、数据非结构化等特点, 通过网络舆情来挖掘和理解别人的观点由 Dave
传统的客户机/服务器(C/S)式集中数据处理方式以及 等[6]于2003 年在WWW 会议上发表的论文中提出, 理
基于关系型数据库的结构化数据分类方法难以实现网 想的舆情观点挖掘工具应能够将主题搜索结果生成不
络舆情的有效分类[3] 。以Hadoop 为代表的云计算技术 同属性类别的集合, 整合出观点的情感倾向。2008 年,
快速发展为大规模数据的分布式处理提供了可能, 成 Allan 等[7]采用向量空间模型(VSM)表征新闻文本, 通
为近年来的研究热点[4]; 朴素贝叶斯分类算法作为一 过特征词和频率构成文本特征向量, 利用自然语言处
种简单、高效的统计分类算法, 广泛适用于非结构化 理技术(NLP)实现话题监测任务。随着现代社会复杂程
通讯作者: 马宾, ORCID: 0000-0002-9030-7393, E-mail: mab@ 。
*本文系国家自然科学基金项目“空间随机模型估计信息分类问题研究”(项目编号、山东省自然科学基金项目“基于光纤传感
的在线监测技术研究”(项目编号:ZR2012FM014)和济南市高校院所自主创新计划项目“基于Hadoop平台的网络舆情并行分析系统”(项目编
号: JN201401206)的研究成果之一。
78 现代图书情报技术
总第255 期 2015 年 第2 期
度的提高, 恐怖主义的威胁等因素, 西方国家对舆情 据处理技术迅速发展, 通过大数据的并行处理与分布
您可能关注的文档
- 一个哲学家的科学试验——徐英瑾心智语言和机器-TempleCIS.PDF
- —二氯乙烷的气相色谱.PDF
- 一个低纬电离层理论模式-空间科学学报.PDF
- 一个地球科学系女学生的野外训练甘苦谈.PDF
- 一个健康的家-HesperianHealthGuides.PDF
- 一个基于正则表达式的生物数据抽取方法-计算机研究与发展.PDF
- 一个具有非线性发生率的时滞SIR传染病模型的稳定性.PDF
- 一个远距离输送一化学转化模式及其在酸雨研究中的应用-环境科学学报.PDF
- 一个定制操作系统的工具包——OSKIT删信息工程大学学报.PDF
- 一个陆表海的潮坪沉积模式-沉积学报.PDF
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
最近下载
- 某化工厂现场应急处置方案(58个).pdf VIP
- MBR运行调试及维护.doc VIP
- 新目标(第二版)视听说B3U7 测试试卷答案.pdf VIP
- 论工厂设备详细搬迁方案.doc VIP
- 2025年公需课《人工智能赋能制造业高质量发展》试题及答案.doc VIP
- DB5307T59-2024丽江市城市暴雨强度公式.pdf VIP
- aqt3049—2013危险与可操作性分析hazop分析应用导则.doc VIP
- 物流运输企业成本结构分析(详细).docx VIP
- 心力衰竭患者利尿剂抵抗诊断及管理中国专家共识2024解读.pptx
- 课题申报书:人工智能赋能高职院校学生就业能力提升的路径研究.docx VIP
文档评论(0)