Web挖掘在电子政务中应用研究.docVIP

下载本文档

6
0
约5.81千字
约 12页
2017-07-07 发布于福建
举报
版权申诉

Web挖掘在电子政务中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web挖掘在电子政务中应用研究

Web挖掘在电子政务中应用研究摘要:介绍了Web挖掘的基本知识，分析了电子政务中Web挖掘应用的必要性以及主要应用领域，优化了适用于电子政务环境下的关联规则挖掘算法E-GM，通过数据试验验证了该算法的有效性，并通过实例证实了其在政府电子政务门户网站规划与建设中的指导应用关键词：Web挖掘电子政务关联规则政府门户网站一、引言目前，Web挖掘已成为数据挖掘研究中的一个重要方面，而且已成功应用到银行、电信、保险、网络零售、电子商务等很多领域。随着网络社会的到来，政府的管理和服务模式不断变化，电子政务作为一种新型的政府工作形式近几年取得了蓬勃的发展，其中加强政务信息资源的开发与利用成为当前的迫切任务[1] 本文讨论了Web挖掘在电子政务中的主要应用领域，并就关联规则Web挖掘算法进行了优化分析，对其在电子政务门户网站规划与建设的实践中进行了应用性的实证研究二、Web挖掘的基本知识 ⒈Web挖掘的定义从形式上看，Web挖掘就是从与相关的资源和行为中抽取主体感兴趣的、潜在的有用模式和隐含的信息或知识。Web挖掘覆盖了多个研究领域，包括Web技术、数据库技术、数据挖掘、计算机语言学、信息获取技术、统计学、人工智能等[2] 从更为一般的角度出发，对Web挖掘可以作如下形式化的定义[3]： Web挖掘是指从大量Web文档的集合C中发现隐含的模式p。如果将C看作输入，将p看作输出，那么Web挖掘的过程就是从输入到输出的一个映射f：C→p ⒉Web挖掘的主要类型 Web挖掘的研究主要有3种，即Web结构挖掘、Web使用挖掘和Web内容挖掘[4] ⑴Web结构挖掘 Web结构挖掘主要是指挖掘Web上的链接结构，它有广泛的应用价值。例如，通过Web页面间的链接信息可以识别出权威页面、安全隐患（非法链接）等 ⑵Web使用挖掘 Web使用挖掘主要是指对Web上的Log日志记录的挖掘。Web上的Log日志记录了包括URL请求、IP地址以及时间等的访问信息。分析和发现Log日志中蕴藏的规律，可以帮助我们识别潜在的客户、跟踪Web服务的质量以及侦探非法访问的隐患等 ⑶Web内容挖掘 Web内容挖掘主要是对包含文本、声音、图片等的文档信息，以及Web链接结构信息的挖掘。其中，基于关键词的Web内容分析技术已经在文本挖掘（Text Mining）和Web搜索引擎（Search Engine）等相关领域得到广泛的研究和应用 ⒊Web挖掘的复杂性分析面向Web的数据挖掘要比面向数据库和数据仓库的数据挖掘要复杂得多。这主要是因为Web上的数据结构是非常复杂的，Web挖掘必须面对下面一些关键问题[5-7] ⑴海量、异构的数据源环境 Web网站上的各种数据信息构成了一个非常庞大、非常复杂的异构数据源。如果要利用这种异构数据源进行数据挖掘，首先，必须要解决站点之间异构数据的集成问题；其次，还要解决Web上的数据查询问题，因为如果所需的数据不能很有效地得到，对这些数据进行分析、集成、处理就无从谈起 ⑵半结构化的数据结构 Web上的数据更多是半结构化的。面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提，为此，寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外，还需要一种半结构化模型抽取技术。每一站点的数据都各自独立设计，并且数据本身具有自述性和动态可变性 ⑶动态变化的应用环境研究表明，一个Web站点的数据可能只有不超过1%的信息对特定挖掘主题是相关的，这些变数也是Web挖掘必须面对的问题。这些问题主要表现为：首先，Web的信息是频繁变化的，而且这种高变化也体现在页面的动态链接和随机存取上，像新闻、股票等信息是实时更新的；其次，Web上的用户是难以预测的，用户具有不同的知识背景、兴趣以及访问目的；最后，Web上的数据环境是高噪音的 ⑷高度综合的网络信息内容 Web挖掘的研究对象是网络信息。由于网络信息涉及各个学科门类，因而内容具有较大的综合性，要在丰富的内容中挖掘有规律的知识，其难度相当大。因此，要注意各种专业领域知识的应用,同时综合利用各种挖掘方法，不断提高知识发现的有效性 ⑸模糊、多样的用户目标基于网络信息Web挖掘的用户类型较多，用户目的各自不同。许多用户往往对所要挖掘的主题只有模糊的、粗浅的认识，不能提出明确的目标。这就需要基于Web挖掘的知识发现系统具有一定的智能性和学习机制，不断地发现和跟踪用户的兴趣，并且清晰地表示知识发现的结果，从而提高知识发现的可用性 ⒋Web挖掘的处理流程从典型的Web挖掘处理流程（如图1所示）可以看出，该流程主要包括如下几