政务服务大数据报告技术原理分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
政务服务大数据报告技术原理分析

政务服务大数据报告技术原理分析   政务服务大数据报告是针对政务服务的,主要反映了政务服务的社情民意和舆情动向,梳理并客观呈现政务服务的舆情热点、党和政府政务方针政策及反馈、治国理政体系及能力建设、政务服务新思想、新技术、新做法、新经验等有关政务服务的一切资讯。同时,介绍境外媒体网站上对中国政务服务的评论,关注国际重大事件特别是对中国政务服务有影响的事件,帮助领导干部拓展视野,更好地做好政务服务工作,在问责制年代为领导干部提供应对参考。   对一个政务服务大数据报告来说,它的基本流程有以下六步:明确分析的目的,确定关键词和分析角度;进行数据采集和预处理;进行数据储存、索引和编目;进行数据的分析,得出分析结果;进行可视化展现,直观反映分析结果;编写大数据报告,得出最终结论。在这六步中间,还贯穿着自然语言处理的步骤。   明???分析目的   用户提出一个政务服务大数据报告的生成需求后,首先由相关的技术人员把这个报告的题目进行分解,明确分析的目的,确定数据分析的对象。然后决定要获取哪些数据进行分析,从什么角度来分析,以及分析的关键词等等。最后决定数据采集的来源。   明确分析目的是大数据报告生成的第一步,如果这一步的方向错误,那么后面的全部步骤都是无用功。为了保证这一步的正确性,目的分析都是由经验丰富的技术人员来担任,并且在目的分析完成后,也要和用户反复的?贤ǎ?直到确定充分理解了用户的需求,才会进行后面的操作步骤。   对政务服务大数据报告的目的分析而言,这一步都是人工操作,没有人工智能或者算法能够代替。特别是数据采集的来源,通常都是由技术人员和用户来定义,无法像传统的搜索引擎一样,能够对整个Internet网进行全面的搜索。但是随着大数据的逐渐发展,最终它的数据来源会面向整个Internet网络。   分析的角度更是多样化,有地域划分、时间范围、用户类别、各类排名、满意度、支持度、活跃度、关注度等等。对政务服务而言,用户的情绪是一个很重要的分析角度。   同一个问题,分析角度不一样,得出的结论会有很大的偏差,所以,选择合适的分析角度也是非常重要,大数据报告应该尽可能多的选择不同的分析角度给出结论。   数据采集和预处理   大数据技术中最重要的一环就是数据采集,也叫数据挖掘。它是通过数据爬取软件平台实现的。   数据爬取不限定于某种编程语言,也不限定于某种操作系统。不管是Java语言+Linux操作系统,还是C#语言+Windows操作系统等等,都可以胜任数据爬取的工作。   同样,数据的来源也是多种多样,对政务服务大数据报告来说,数据来源可以是由爬取平台在相关政务网站上爬取,也可以由填报系统人工录入,也可以从Excel文档导入,甚至还可以从相关的业务系统的数据库直接读取。   那么政务服务数据采集是从哪些网站来获取数据的呢?主要是当地的省市县政务网站、国内知名的新闻网站的政务版块,以及一些国内知名论坛的相关版块。   一般来说,用户可以自建数据挖掘平台,但是也可以付费使用第三方的数据挖掘平台。在大数据报告生成中,付费使用第三方的挖掘平台的数据,是一件很常见的事情。一定程度上的数据共享,可以有效节约时间和成本,对大数据报告的生成是非常有利的。   数据爬取需要爬虫程序,从本质上来说,爬虫就是一个能够多线程运行的程序。它使用HTTP协议,根据设定好的爬取规则,通过GET和POST命令,得到相关网页的源数据。然后通过一些程序插件去除里面的HTML、CSS修饰符和JS脚本等无效字符,得到数据分析所需要的文本数据。   数据的爬取规则,经常采用XML文档来保存,因为XML文档里,可以定义非常复杂的爬取规则,读取和编辑也较为方便。   每个要爬取的网页的规则,通常是由程序员手工编写,熟练的程序员一天能够写出好几个页面的爬取规则。现在还没有好的智能算法能够自动适应不同页面数据爬取,一旦网站改版或者添加新的栏目,就必须要人工重新编写爬取规则。   为了保证网站的正常运行,很多网站都有反爬手段,阻止爬虫占用网站的数据和带宽等资源。常见的反爬手段有字符验证码、图片验证码、鼠标拖动滑块验证、IP访问限制、流量限制、用户必须登录等等。爬虫程序通常都有具有一定的反爬能力,能够自动处理一些简单的反爬手段,比如字符验证码和IP访问限制等。但是对一些复杂反爬手段,也是无能无力,只能付费买授权或者从第三方买数据。   数据的爬取速度,通常几个小时内,可以爬完一个小型网站的全部页面,如果该网站的数据更新量较小,那么几十分钟内就可以重新爬取一遍更新数据。爬虫的数量越多,爬取速度也越快,但是为了防止被限制IP和封号,爬虫的数量对单个网站都不会设置太多。对政务服务网站来说,需要爬取页面的数量相对较少,所以在整个大数据报告周期里

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档