电子政务平台的数据挖掘探索.docVIP

下载本文档

0
0
约2.87千字
约 5页
2016-09-19 发布于北京
举报
版权申诉

电子政务平台的数据挖掘探索.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

电子政务平台的数据挖掘探索.doc

电子政务平台的数据挖掘探索　　摘要电子政务平台旨在服务于社会公共事业，本文讨论了政务处理方法的历程，重点突出了新信息技术（数据挖掘技术）对政务的革新作用。最后以检察院为例提出具体应用数据仓库和数据挖掘技术的有效方法，辅助政府获得潜在的知识信息。　　关键词电子政务数据仓库数据挖掘　　中图分类号：C931 文献标识码：A 　　在信息时代，信息技术的快速发展对社会各个领域都产生了一定的影响，在电子商务中反映尤为突出。电子政务的出现相对较晚，但据国外学者研究表明大约80%以上的重要信息资源掌握在政府手中，所以许多国家都将电子政务作为本国在信息技术应用领域的首要任务。　　1政务数据处理状态分析　　政府不仅是处理人民群众日常事务的单位，它更重要的作用体现在可以反映群众的多数意见和分析社会大范围的特征，并以此帮助人民群众和社会向更好的方向发展。政府对这些事务的处理到目前为止经历了人工和计算机处理的两大阶段。　　（1）人工处理阶段　　为了反映较大范围人民群众的整体特征，政府经常要付出庞大的人力和物力收集大量数据。这个数据的收集通常要经历一个较长的时间，间隔一段时间还必须重复执行。比如犯罪规律调查、经济普查、群众意向调查等。然而，分析收集来的海量数据更是政府头疼的一件事。比如经济普查，政府需知道近10年、近20年、50年甚至更长时间的经济发展状况，那么光靠人工去翻阅以前的数据就是件很困难的工作了。所以人工处理数据阶段，有许多政务受到很大的限制。　　（2）计算机处理阶段　　随着计算机在各政府部分的使用，逐渐出现了“电子政务（Electronic Government，即EG）”。目前为止，电子政务的发展大致经历了以下三个阶段：面向数据处理的第一代电子政务、面向信息处理的第二代电子政务、面向知识处理的第三代电子政务。在前两个阶段中，许多政务工作确实提高了效率，但是政府海量数据中隐含的价值仍不能被有效发掘。正如在一大座金山中，获取更有价值的黄金还需更细致更有效的清理和挖掘。由于信息技术的发展，电子政务逐渐进入第三代发展中，即有效应用数据仓库和数据挖掘技术挖掘知识。　　2 DW和DM技术　　数据仓库（DataWare，即DW）是指一个面向主题的、集成的、非易失的且随时间变化的数据集合，用来支持管理人员的决策。面向知识处理的EG系统应能够自动剔除掉不需要的数据，按照用户的要求整合杂乱的数据资源，获取某些可用的属性。　　数据挖掘（Data Mining，即DM）是指从大量的数据中，抽取出潜在的、有价值的知识（模型或规则）的过程。数据挖掘就是从大量数据中提取或“挖掘”知识。　　首先，我们要确定数据挖掘的对象有哪些。其次，要有效地应用数据挖掘技术，就要遵循科学的应用流程。一般的挖掘流程是：（1）确定挖掘对象；（2）数据准备；（3）数据挖掘，即模式提取；（4）结果分析，即模式评估。　　3政务平台的数据挖掘过程　　按照上述数据挖掘的基本流程，以检察院为例介绍如何在EG系统真正实现数据挖掘。　　3.1构建EG系统的数据仓库　　这部分主要分为以下四个任务：　　（1）确定检察院EG系统中的数据源　　检察院EG系统的数据主要从两个方面获得：第一个是调研和用户主动提供的数据资源；第二个是EG系统从其门户网站中获得数据源。　　当实施了EG后，政府将从其门户网站中获取更多、更丰富的数据资源。那么如何对庞大的Web日志数据建立数据仓库呢？　　（2）Web日志数据的预处理　　Web服务器日志文件中的数据称之为原始数据，管理员可根据需要用某些日志字段记录相关数据。如：用户的域名或IP地址，用户的Login ID，访问日期和时间，访问的方法，被访问页的文件名和参数等。对Web日志数据的预处理包括两步。第一步：清除噪音，即去掉对知识挖掘无关的数据。第二步：转化数据，即将原始数据按照挖掘需求通过重新组织或简单计算转换成规范模式。　　（3）多维Web数据模式的建立　　第一步，选取维。多维数据便于我们从多个角度深入了解数据中的信息。N维数据矩阵用C（A1， A2， . ..， Am ，count）模式表示，其中Ai代表第i维，i=1，2，...，n， count是变量，反映数据的实际意义。　　第二步，构造检察院门户网站访问数据的（下转第78页）（上接第76页）多维视图。先选取data维（按季度组织）、file维（按文件类型组织）用2―D形式表示用户对检察院门户网站的访问行为。然后加入第三维location（按用户所在区组织），进一步构建用户访问行为的三维视图。视图显示的事实是visit_count（访问次数）。　　第三步，创建多维数据模式。最流行的数据仓库数据模型是多维数