- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Web数据挖掘研究与应用
基于Web数据挖掘研究与应用
0要:随着Internet的迅速发展及Web的全球普及,数据挖掘技术已经在各个领域、各个行业展现了它的巨大作用。通过分析Web及数据挖掘的特点,列举出数据挖掘在Web基础上的具体应用。
关键词:Web应用;数据挖掘技术;关联分析
中图分类号:TP391 文献标识码:A 文章编号文章编号2014)001013102
作者简介作者简介:苏燕(1980-),女,北海职业学院讲师,研究方向为高职计算机教学与研究;梁武(1978-),男,硕士,北海职业学院讲师,研究方向为高职计算机教学与研究。
0 引言
WWW提供了便捷的文档发布与获取机制,并逐步成为各类信息资源的聚集地。据Google于2008年发布的官方报告,他们已经在互联网上发现超过1万亿个Web文档,而且这个数字还在以每天几十亿的速度持续增长。面对如此巨大的信息量,普通Web用户往往迷失其中,他们迫切需要一种机制快速定位到所需信息。Web数据挖掘应运而生,并且伴随Web的发展而备受关注。Web数据挖掘建立在信息检索、数据挖掘以及知识管理等技术的基础上,通过对大量Web文档进行分析来获得隐含的知识和模式,从而帮助人们更好地进行信息搜索和决策制定。反过来,也正是Web挖掘技术的不断进展,推动了Web的进一步蓬勃发展。
1 Web数据库特点
Web数据挖掘是建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后作出归纳性的推理,预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策风险。Web数据挖掘涉及多个领域,除数据挖掘外,还涉及计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术。
2 数据挖掘特点
数据挖掘是从大量数据中发现有趣模式,这些数据可以存放在数据库、数据仓库或其它信息存储中。这是一个跨学科领域,源于诸如数据库系统、数据仓库、统计、机器学习、数据可视化、信息提取和高性能计算。其它有贡献的领域包括神经网络、模式识别、空间数据分析、图像数据库、信号处理和一些应用领域,包括商务、经济和生物信息学。
3 Web数据挖掘分类
Web数据挖掘应用分为4类,如图1所示。
图1 数据挖掘应用分类
3.1 Web内容挖掘
Web内容挖掘是指从网页上获取有用的数据信息,包括文字、图片、视频等各种各样的数据。Web的内容挖掘是指站在用户的角度,替用户考虑,并在众多混杂的数据信息中过滤,并找出适合用户所需要的高质量信息。
3.2 Web结构挖掘
Web结构挖掘是指数据库之间都会存在这样或那样的联系,结构挖掘能分析数据库之间的关系,发现它们之间潜在的内在联系和规律。
3.3 Web使用记录挖掘
Web使用记录挖掘对企业来说非常重要,它能从Web中自动分析出用户喜欢浏览的内容及页面,可为企业今后的开发和设计提供非常重要的依据,并根据用户的习惯和兴趣重点挖掘,提高企业竞争力。
3.4 Web用户性质挖掘
Web用户性质挖掘通过对Web用户自建的信息聚合、网络日志、论坛等功能模块,统计分析用户信息。
4 数据挖掘工作流程
数据挖掘工作流程如图2所示。
图2 数据挖掘流程
(1)定义问题。先确定数据挖掘的主要目标、评价情况、带来的意义及效果。
(2)形成数据挖掘库。形成数据挖掘库是数据挖掘的重要基础,通过外部数据搜集相关资料,分析形成数据库表的内容,生成“数据表述报告”,包括所有的数据字段信息。整合数据库,把来自不同数据源的数据并到同一个数据库中,让冲突的以及不一致的数据统一化。数据挖掘库建立好后,就要对它进行维护,需要定期备份,监视它的性能,不断增加存储空间或提高它的性能。对存放在数据中的复杂挖掘库来说,维护需要计算机专业人员来完成。
(3)清理分析数据挖掘库。错误数据是普遍存在的,在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。因此,要对数据及各个字段进行处理,减少所用数据机械错误的存在,做好模型和整个数据挖掘工作。
(4)探索分析数据挖掘库。这主要为了后面的数据建模做准备。主要包括选择变量、选择记录、创建新变量、转换变量、探索分析。
(5)建立数据挖掘模型。模型的建立是实施的重要基础,为了保证建起的模型具有精确性和稳定性,需要从宏观考虑模型的资料采集,让模型更好地服务后面的工作。如图3所示。
(6)模型实施。模型建立并经验证后,就可以实施了。在整个数据挖掘过程中,每个步骤都是相互关联和影响的,在实施过程中还要不断改进找出最优的模型。
文档评论(0)