- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
WEB数据挖掘在云计算环境下探究
WEB数据挖掘在云计算环境下探究摘要:云计算是一种新兴的共享基础架构方法,它基于开放标准和服务,以互联网为中心,提供安全、快捷、方便的数据存储和网络计算服务。云计算环境下的数据挖掘的研究,可以提供更多和更大量的数据挖掘与解决方案。文章概述了云计算的概念和网络数据挖掘,涉及了常用的数据挖掘算法,以及运用云计算环境来提高Web数据挖掘策略。
关键词:云计算Web 数据挖掘 海量数据 算法
中图分类号:TP3913 文献标识码:A 文章编号:1007-9416(2013)03-0092-01
2011年美国搜索市场收入153.6亿,与2010年相比增长27.9%,中国的搜索市场收入188.9亿年,与2010年相比增长71.1%。2011年搜索引擎在互联网的使用增加了8.8%,81.9%的利用率成为互联网用户针对各种各样的网络应用程序的首例,从传统的互联网门户网站到搜索引擎的转变明显。网络技术的飞速发展所产生的海量网络信息促进生产和消费行为快速发展。电脑、手机、平板电脑等终端集成,迅速发展的SNS、微博客和其他web应用程序,促进了互联网信息容量急剧增加,前所未有地丰富了信息资源。但与此同时,大量碎片信息增加了获取有效信息的时间成本。同时,2011年企业广告大幅增加。
1 云计算的概念
云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等产品的融合,是传统计算机和网络技术的发展。广义云计算指服务交付的使用模式,指通过网络,易于扩展要求的服务方式。这个服务有它的软件和互联网相关服务,还有其他服务。狭义云计算是指交付的基础设施使用模式,指按需的、易扩展的方式通过网络去获取所需的资源。
2 云计算的关键技术
(1)大规模分布式存储技术:云存储数据的实现通过使用分布式存储模式,可以确保高可靠性、高可用性、经济。高可靠性的数据存储,是利用冗余存储的方式来保证可靠软件来弥补硬件的不足,提供廉价可靠的大规模分布式存储和计算服务。
(2)数据管理技术:云计算系统处理和分析大数据集通常给用户提供高效的服务。所以云数据管理技术必须能够有效地管理大型数据集。另一个云数据管理技术必须解决的问题,是如何在一个巨大的数据集找到特定的数据。
(3)虚拟化技术:虚拟化技术是一种分配计算资源方法,它将不同级别的应用系统——硬件、软件、数据、网络、存储等孤立,从而打破数据中心、服务器、存储、网络、数据和应用物理设备之间的分工,实现动态体系结构,实现集中管理和动态使用的物理资源和虚拟资源,提高了高弹性和灵活性的系统结构,降低了成本,改善了服务,降低了管理风险等。
3 WEB数据挖掘
WEB数据挖掘又称为“网络挖掘”,它是互联网应用结合数据挖掘技术的研究领域。Web数据挖掘的一般定义如下:Web数据挖掘网络中的文档结构和使用结构中发现隐藏的模式。如果将C作为输入,P为输出,Web数据挖掘过程是一个从输入到输出的映射。WEB数据挖掘技术从大量的网络数据中发现潜在的有用信息,最终可以理解的知识(包括概念、模式、规章、规则、约束和视觉形式)的过程。网络数据挖掘技术覆盖多个研究领域,包括数据库技术、信息获取技术、统计学、机器学习、神经网络等。
4 网络的分类数据挖掘
Web挖掘技术根据挖掘方向一般分为三类:Web内容挖掘,网络结构挖掘和网络使用挖掘。
(1) Web内容挖掘:Web内容数据挖掘是指从大量的Web内容挖掘发现的信息中提取知识。网络数据是在网页上各种各样的内容和链接所指向的网络数据库中的数据。Web内容挖掘也可以分为多媒体网络文本挖掘和网络挖掘,其不同的特征是提取方法是不同的。Web内容挖掘方法可以分为数据库方法和信息提取方法。
(2)网络结构挖掘:从Web网络组织结构挖掘和Web文档结构,以及其链接挖掘潜在关系知识模式。通过分析网络结构,可以发现页面结构和包含在关系模型中的有用链接;也可以在页面上进行分类和聚类,发现权威页面。
5 Hadoop
云计算的开源系统最著名的是Hadoop。它模仿云计算的开源系统和关键技术实现谷歌云计算架构BigTable和MapReduce。Hadoop是一个Apache开源分布式计算框架组织,可以在大量的廉价集群上运行应用程序的硬件设备,提供了一套稳定、可靠的应用程序接口,旨在构建一个分布式系统,具有高可靠性和良好的扩展性。云计算变得越来越流行,项目被越来越多的个人和企业接受。Hadoop的HDFS是核心的MapReduce和Hbase。Hadoop具有如下优点:(1)可扩展性:两个存储可伸缩、可扩展的计算模型;(2)经济:Hadoop数据分布由一个便宜的Pc集群进行处理;(3)可靠性:备份恢复机制和HDFS任
您可能关注的文档
- GAF型轴流通风机喘振现象研究及预防措施.doc
- GDI+测井曲线绘图中效率提升探究.doc
- Gap between the rich and the poor in resource—based region-A study on Yulin City.doc
- GEM—3000血气研究仪自带钾钠.血糖检测结果比对研究及临床可接受性评价.doc
- GeoGebra在二次函数学习中作用.doc
- GIS专业课程体系设置探究及实践.doc
- GIS技术在岩土工程勘察中应用探微.doc
- GIS辅助中学地理教学实践及反思.doc
- GNS3+vmware在VPN实践教学中应用.doc
- GMS在水文地质结构可视化方面应用.doc
最近下载
- xsb-1显示仪表说明书.docx VIP
- 乡村振兴乡村旅游-浙江省乡村旅游设计方案.pdf VIP
- DELTA台达VFD-ME300精巧简易型向量控制变频器使用手册调试说明.pdf
- 眼附属器的解剖ppt参考课件.ppt
- 土壤及地下水采样实施实施方案gp.docx
- 小学科学新教科版三年级上册全册思维导图(共三个单元)(2025秋).doc VIP
- 1415地面流水地质作用.pptx VIP
- Unit1GrowingUpUnderstandingideasTheageofmajority课件高中英语选择性.pptx VIP
- 写文章的软件4篇.docx VIP
- GB 50026-2020 工程测量标准.docx
原创力文档


文档评论(0)