基于云计算Web数据挖掘研究.docVIP

下载本文档

3
0
约2.7千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于云计算Web数据挖掘研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于云计算Web数据挖掘研究

基于云计算Web数据挖掘研究　　【摘要】数据挖掘技术是当前数据库和人工智能领域研究的热点。文章从云计算的概念及关键技术出发，详细阐述了在云计算下的Web数据挖掘的各种技术方法，分析了Web数据挖掘技术，并对云计算基础上的Web数据挖掘进行了探讨。　　【关键词】云计算；Web数据；数据挖掘；海量数据；数据预处理　　1 引言　　Web搜索技术在一定程度上解决了用户查找网络信息的问题，但却没有解决知识发现的问题，并没有充分地揭示Web信息资源中隐藏的知识，人们迫切需要一种比Web数据挖掘技术更高，可以从Web上快速、有效地发现资源和知识的技术，基于云计算机的Web数据挖掘技术因此应运而生。　　2 云计算及关键技术　　2.1 云计算的定义　　在维基百科中，云计算被表述为一种基于互联网的计算，在其中共享的资源、软件和信息以一种按需的方式提供给计算机和设备，就如同日常生活中的电网一样。云计算一般们提供的是基于Web浏览器的、在线商业应用程序的服务。云计算的概念已经超越了单纯的软件交付。　　2.2 虚拟化技术　　虚拟化是云计算最重要的技术基础，虚拟化技术实现物理资源的统一表示和逻辑抽象。通过虚拟化技术可以提高资源利用率，可以改变根据用户的业务需求，快速和灵活的资源部署。虚拟化技术不仅可以扩大硬件的容量而且可以简化软件的重新配置过程。CPU虚拟化技术还可以用单CPU模拟多CPU并行，允许一个平台同时运行多个操作系统，同时应用程序可以运行在空间上，并且相互独立的、相互影响，从而显著提高计算机的效率。如果虚拟化的未来发展将包含更多的元素，多元化的服务器、存储和网络，用户将无法区分什么是虚拟的，什么是真实的。虚拟化将改变目前传统的IT基础设施和互联网的所有资源都在一起形成一个大型计算中心，而我们却不用关心所有这一切，而只需关心提供给自己的服务是否正常。　　2.3 并行编程模型　　并行编程模式，通俗地说就是指并行编程的一种形式，一种方式，就像串行编程时，你是采用过程式还是结构化一般。并行编程模式只要指并行编程时，程序员将程序各模块并行执行时，模块间的通信方式，并行计算模型是提高海量数据处理效率的常用方法。云计算环境下的并行计算机模型属于面向互联网数据密集型应用的并行编程模型，云计算下把海量数据分布到多个结点上，将计算机并行化，利用多个计算机的计算资源，加快数据处理的速度。　　为保证高可靠性、高可用与经济性，云计算通常是采用分布式存储的方式来对数据进行存储，使用冗余存储的方式来保证存储数据的可靠性，也就是说，同一数据的多个副本存储、云计算系统由大量服务器，以及大量用户，因此，云计算系统使用分布式数据存储模式，冗余存储的方式来保证数据的可靠性。　　3 Web数据挖掘　　Web数据挖掘是数据挖掘的延伸和发展，数据挖掘是指从大量的、不完全的有噪声、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的及最终可理解的模式过程。而Web数据挖掘技术是应用挖掘技术自动从Web文档和服务器上发现并提取有用信息的过程。尽管Web挖掘用到很多数据挖掘的技术，但Web挖掘不能和传统的数据挖掘等同起来，它不仅仅是直接在互联网中寻找到有用的信息，而且在复杂的网络信息中找到规律，从而实现信息的快速查找。　　4 云计算技术下的Web数据挖掘　　云计算技术下的Web数据挖掘借助于云计算的关键技术，实现传统Web数据挖掘技术的优化。云计算的并行处理和海量存储能力解决了数据挖掘所面临的海量数据处理问题。　　4.1 数据的收集　　数据收集是Web使用挖掘的基础，Web使用挖掘的对象是日志信息，是用户与系统交互时留下的日志数据，并存储在一个数据仓库。如果数据仓库的问题是数据可能会丢失。收集到的数据在云计算下对数据信息在网络上进行第一次筛选、转换和统一，并最终从数据后可以转化为一个统一的半结构化的XML文件，将其保存在一个分布式文件系统。因此，不仅可以优化数据收集方法，并避免存储数据的损失由设备故障引起的。云计算下的数据挖掘是一个很好的能保证共享技术，降低了数据挖掘应用门槛，使大规模的数据挖掘需要得到满足。　　4.2 数据预处理　　数据预处理保证Web使用挖掘质量的关键环节之一，它主要包括四个方面：（1）数据净化删除采集数据中的无用信息；（2）用户识别是从日志数据中识别出有多少个用户，确定哪些信息是同一个用户留下的；（3）会话识别是在用户识别的基础上，将同一个用户访问记录按照不同的访问时间段区分开来；（4）格式化是数据预处理的最后一个步骤，在这个步骤中，将预处理完的数据转换成符合挖掘算法要求的格式存储起来，供以后挖掘使用。　　4.3 数据分析　　数据分析是运用挖掘算法对预处理后的数据进行分析