- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于像素数据挖掘可视化技术在电子商务中研究与应用
基于像素数据挖掘可视化技术在电子商务中研究与应用
摘要:论述将基于像素的可视化技术运用到电子商务领域的基于像素的数据挖掘可视化系统的基本原理、运行步骤及使用价值,并提出对此系统的进一步构想。
关键词:电子商务;数据挖掘;像素;可视化
中图分类号:TP393 文献标识码:A 文章编号:1671-7597(2011)0220063-01
0、引言
随着互联网的高速发展,电子商务已经成为最流行的经济活动。但随之而来的是信息量的迅速增长,导致了信息爆炸。又由于人类对于视觉分析的先天性优势,将可视化技术与数据挖掘结合起来已毅然成为时下最有效的解决方案。
1、基于像素的数据挖掘可视化技术的理论依据
1.1数据挖掘。数据挖掘,是指从海量数据之中获取隐含的、目前未知的、最终可理解的、有效的、对于决策过程有用的知识的非平凡过程;也就是使用复杂的统计分析和模型技术来揭示隐藏在组织机构的数据集中的模式和关系;在大量相关数据基础之上进行数据探索和建立相关模型的先进方法。
1.2可视化技术。可视化是综合利用计算机图形学、图像技术、交互理论,将抽象数据通过映射、变换,在二维显示屏幕上展现出来以支持用户分析和决策的技术和方法,以此来使得研究者可以观察计算结果并准确的做出自己的判断。
1.3基于像素的数据挖掘可视化技术。数据挖掘可视化就是指使用可视化技术在大量的数据中发现潜在有用的知识的过程。它充分体现了以用户为中心的思想,抛弃了原本的“黑盒操作”,转而将挖掘成败的决定权交予用户手中,实现了挖掘结果的可视化输出。像素可视化技术的基本思想是将每个数据值映射成一个带颜色的像素,根据数据集的维数把屏幕分为若干个子窗口,每个子窗口显示数据的一维。
2、基于像素的数据挖掘可视化系统
2.1数据源采集。日志文件:是客户访问服务器时留下的记录客户访问行为的数据,其中标准公用日志文件格式存储关于客户连接的物理信息。
查询数据:是用户在查询自己需要的信息时所生成的记录会形成查询数据,通过Cookie或是登记信息连接到电子商务站点服务器的访问日志上。
客户登记信息:是指客户通过Web页在屏幕上输入的要提交给服务器的相关信息。
数据仓库:存放着各种各样的数据,既有历史数据,也有实时数据。
2.2数据预处理。所谓数据预处理就是通过对各种不完全的、冗余的和模糊的原始数据源进行过滤、规格化、归纳、二义性分析等处理,为下一步数据挖掘提供干净、准确、简化的数据,即数据立方体。
2.3数据挖掘过程
2.3.1数据挖掘库。数据挖掘库中包含大量的数据挖掘算法,根据用户的实际要求可选择不同的挖掘算法,其主要的挖掘算法有:
分类:从数据集中选出已经分好类的子集作为训练集,并运用数据挖掘分类的技术,建立分类模型,再对没有分类标记的数据集进行分类,以建立有效的分类方法。
路径分析:即用以判定在一个Web站点中被最频繁访问的路径,从而可以得到有趣信息,使得能够精细地改进网站的设计结构。
聚类:将数据对象集分组为由相似数据对象组成的若干个类或簇,同一个簇中的对象之间相似,不同的类或簇中的数据对象之间相异。
关联分析:当属性之间存在关联,某些属性值就可以依据其他属性值来预测,可用以发现用户访问电子商务网站上各种文件之间的有趣联系。
序列分析:就是发现用户在一定的持续时间内的访问序列,这些序列反映的用户行为,有助于商家发现用户的购买规律。
孤立点分析:用于发现标准类型知识外的偏差型知识,可以揭示出事物偏离常规的异常现象。
2.3.2OLAP引擎。OLAF引擎的主要任务是对数据立方体中的数据进行快速分析处理和及时通过用户接口将分析出的信息返回给用户,以及创建数据立方体。
2.3.3知识库。知识库中存储一些领域知识和规则,以及数据挖掘所需的一些原型,随着数据挖掘的深入,可以将分析出的有效原型,存入知识库。
2.4基于像素的可视化。由于进行可视化前的结果文件有可能是不完整的,数据类型也不完全一致,因此需要进行规整性处理,即填充缺失数据和数据类型归一化。此后就可以继续处理像素可视化中的一系列核心问题,主要包括:显示窗口形状及子窗口大小的设置,属性的选取与排列,放置像素点,像素点着色。
2.5用户反馈机制。数据挖掘是一个反复的过程,过程的终止条件是用户对发现的知识满意。根据可视化系统分析出的结果信息,用户可以直观地对挖掘结果进行判断和筛选,若满意,结果就成为知识,挖掘过程结束:若不满意,就要反馈作用于系统的前几个阶段,直至结果逐渐接近用户的挖掘目标。
3、基于像素的数据挖掘可视化系统的使用价值
文档评论(0)