政务服务大数据报告技术原理分析.docVIP

下载本文档

59
0
约4.65千字
约 11页
2018-09-10 发布于福建
举报
版权申诉

政务服务大数据报告技术原理分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

政务服务大数据报告技术原理分析

政务服务大数据报告技术原理分析　　政务服务大数据报告是针对政务服务的，主要反映了政务服务的社情民意和舆情动向，梳理并客观呈现政务服务的舆情热点、党和政府政务方针政策及反馈、治国理政体系及能力建设、政务服务新思想、新技术、新做法、新经验等有关政务服务的一切资讯。同时，介绍境外媒体网站上对中国政务服务的评论，关注国际重大事件特别是对中国政务服务有影响的事件，帮助领导干部拓展视野，更好地做好政务服务工作，在问责制年代为领导干部提供应对参考。　　对一个政务服务大数据报告来说，它的基本流程有以下六步：明确分析的目的，确定关键词和分析角度；进行数据采集和预处理；进行数据储存、索引和编目；进行数据的分析，得出分析结果；进行可视化展现，直观反映分析结果；编写大数据报告，得出最终结论。在这六步中间，还贯穿着自然语言处理的步骤。　　明???分析目的　　用户提出一个政务服务大数据报告的生成需求后，首先由相关的技术人员把这个报告的题目进行分解，明确分析的目的，确定数据分析的对象。然后决定要获取哪些数据进行分析，从什么角度来分析，以及分析的关键词等等。最后决定数据采集的来源。　　明确分析目的是大数据报告生成的第一步，如果这一步的方向错误，那么后面的全部步骤都是无用功。为了保证这一步的正确性，目的分析都是由经验丰富的技术人员来担任，并且在目的分析完成后，也要和用户反复的?贤ǎ?直到确定充分理解了用户的需求，才会进行后面的操作步骤。　　对政务服务大数据报告的目的分析而言，这一步都是人工操作，没有人工智能或者算法能够代替。特别是数据采集的来源，通常都是由技术人员和用户来定义，无法像传统的搜索引擎一样，能够对整个Internet网进行全面的搜索。但是随着大数据的逐渐发展，最终它的数据来源会面向整个Internet网络。　　分析的角度更是多样化，有地域划分、时间范围、用户类别、各类排名、满意度、支持度、活跃度、关注度等等。对政务服务而言，用户的情绪是一个很重要的分析角度。　　同一个问题，分析角度不一样，得出的结论会有很大的偏差，所以，选择合适的分析角度也是非常重要，大数据报告应该尽可能多的选择不同的分析角度给出结论。　　数据采集和预处理　　大数据技术中最重要的一环就是数据采集，也叫数据挖掘。它是通过数据爬取软件平台实现的。　　数据爬取不限定于某种编程语言，也不限定于某种操作系统。不管是Java语言+Linux操作系统，还是C#语言+Windows操作系统等等，都可以胜任数据爬取的工作。　　同样，数据的来源也是多种多样，对政务服务大数据报告来说，数据来源可以是由爬取平台在相关政务网站上爬取，也可以由填报系统人工录入，也可以从Excel文档导入，甚至还可以从相关的业务系统的数据库直接读取。　　那么政务服务数据采集是从哪些网站来获取数据的呢？主要是当地的省市县政务网站、国内知名的新闻网站的政务版块，以及一些国内知名论坛的相关版块。　　一般来说，用户可以自建数据挖掘平台，但是也可以付费使用第三方的数据挖掘平台。在大数据报告生成中，付费使用第三方的挖掘平台的数据，是一件很常见的事情。一定程度上的数据共享，可以有效节约时间和成本，对大数据报告的生成是非常有利的。　　数据爬取需要爬虫程序，从本质上来说，爬虫就是一个能够多线程运行的程序。它使用HTTP协议，根据设定好的爬取规则，通过GET和POST命令，得到相关网页的源数据。然后通过一些程序插件去除里面的HTML、CSS修饰符和JS脚本等无效字符，得到数据分析所需要的文本数据。　　数据的爬取规则，经常采用XML文档来保存，因为XML文档里，可以定义非常复杂的爬取规则，读取和编辑也较为方便。　　每个要爬取的网页的规则，通常是由程序员手工编写，熟练的程序员一天能够写出好几个页面的爬取规则。现在还没有好的智能算法能够自动适应不同页面数据爬取，一旦网站改版或者添加新的栏目，就必须要人工重新编写爬取规则。　　为了保证网站的正常运行，很多网站都有反爬手段，阻止爬虫占用网站的数据和带宽等资源。常见的反爬手段有字符验证码、图片验证码、鼠标拖动滑块验证、IP访问限制、流量限制、用户必须登录等等。爬虫程序通常都有具有一定的反爬能力，能够自动处理一些简单的反爬手段，比如字符验证码和IP访问限制等。但是对一些复杂反爬手段，也是无能无力，只能付费买授权或者从第三方买数据。　　数据的爬取速度，通常几个小时内，可以爬完一个小型网站的全部页面，如果该网站的数据更新量较小，那么几十分钟内就可以重新爬取一遍更新数据。爬虫的数量越多，爬取速度也越快，但是为了防止被限制IP和封号，爬虫的数量对单个网站都不会设置太多。对政务服务网站来说，需要爬取页面的数量相对较少，所以在整个大数据报告周期里