- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商品陈列研究常用数据挖掘技术相关算法简介与评价标准
商品陈列研究常用数据挖掘技术相关算法简介与评价标准
[摘 要]商品陈列的科学性的研究,借助于数据挖掘的技术从海量的销售数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息。本文综述了各种常用的数据挖掘算法和评价标准。
[关键词]数据挖掘 决策树 神经网络
一、背景介绍
商品陈列是一种介于科学与艺术之间的学问,从科学的角度出发,借助有效的利用各种货架、隔物板、扩栏、台板、端架、价格卡、省力化栏车的布置,在有些商品的销售中,其销售额可以在原有基础上提高10%,从艺术的角度看,商品陈列属视觉传达艺术门类, 其创意设计的审美意象理念是构成商品品类管理计的思维结构基础。商品陈列的科学性的研究,借助于数据挖掘的技术从海量的销售数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息。
数据挖掘包含一系列旨在从数据库中发现有用而未发现的模式的技术。传统的观点认为数据挖掘技术扎根于计算科学和数学,不需要也不依赖于数据仓库。这种观点并不正确,成功的数据挖掘的关键之一就是通过访问准确、完整和集成的数据,才能进行深层次的分析,寻求有益的信息。而这些正是数据仓库所能提供的,数据仓库不仅是集成数据的一种方式,而且数据仓库的联机分析功能―oLAP还为数据挖掘提供了一个极佳的操作平台。如果数据仓库与数据挖掘能够实现有效的联结,将会给数据挖掘带来各种便利和功能。
首先,由于大多数数据挖掘工具要在集成的、一致的、经过清理的数据上进行挖掘。这就需要在数据挖掘中有一个昂贵的数据清理、数据变换和数据集成过程,作为数据挖掘的预处理。而已经完成数据清理、数据变换和数据集成的数据仓库,完全能为数据挖掘提供它所需要的挖掘数据。使数据挖掘免除了数据准备的繁杂过程。
其次,在数据仓库的构造过程中已经围绕数据仓库组建了包括数据存取、数据集成、数据合并、异种数据库的转换、ODBC/OLEDB、WEB访问和服务工具以及报表与OLAP分析工具等全面的数据处理和数据分析基础设旌。在数据挖掘过程中所需要的数据处理与分析工具完全可在数据仓库的数据处理与数据分析工具中找到,根本没有必要为数据挖掘重新设置同样的基础设施。
此外,在数据挖掘过程中,常常需要进行探测式的数据分析,穿越各种数据库,选择相关数据,对各种数据选择不同的粒度,以不同的形式提供知识或结果。而数据仓库中的OLAP完全可以为数据挖掘提供相关的数据操作支持,例如,对数据立方体或数据挖掘中间结果进行数据的下钻、上卷、旋转、过滤、切块或切片,且以OLAP的可视化功能为数据挖掘过程或挖掘结果提供良好的操作平台,这些都将极大地增强数据挖掘地功能和灵活性。
最后,在数据挖掘过程中,如果将数据挖掘与数据仓库进行有效地联结,将增加数据挖掘地联机挖掘功能。用户在数据挖掘地过程中,可以利用数据仓库地OLAP与各种数据挖掘工具地联结,使用户可以为数据挖掘选择合适地数据挖掘工具,能够在数据挖掘过程中灵活地组织挖掘工具以增强数据挖掘能力,同时还为用户灵活地改变数据挖掘地模式与任务提供便利。
二、数据挖掘技术相关算法
数据挖掘的核心是预测建模,预测建模其实就是找出数据中的规律(模型)来“猜”数据集中一个或多个变量值的过程。
不同的模型适用于不同的研究领域,比如Logistic回归属于广义线性模型,其结构是一个S型曲面(或超曲面),如图1所示:
其中: 为事件发生的概率, 被称为事件的发生比(odds)。
Logistic回归是最为常用的预测被解释变量为0-1变量(二分类变量)的模型,其与普通线性回归的区别在于:Logistic回归通过Logistic连接函数,将线性模型的预测平面(可能是高维的超平面)转换为预测曲面(高维超曲面)。但是一旦取定阈值(threshold)以后,判别函数其实依然是线性的。
2.决策树(Decision Trees)
决策树的结果是以一种类似于流程图的树结构表示,其中每个内部枝节点表示在一个属性上的测试,每个分枝表示一个测试的输出,而每个树叶节点代表类(分类因变量)或类分布(区间因变量)。最下层无法再被分割的节点被称为叶结点,代表一个预测或判断(决策)。
决策树模型的计算很大程度上依赖于计算机强大的计算能力,因此直到近几年,才逐渐普及。决策树模型不需要分布的假定。它的分割采用非参数技术,常用的有:熵(Entropy),卡方(Chi-Square )以及基尼系数(Gini Index)。这些方法擅长于处理大量的数据和变量,因此一般都将其用于数据挖掘。
对于一个给定的节点,树模型所做的就是在限制条件下寻找最有“价值”的分割方法将观测值分入各个枝。
无论采用何种方式,树的分割都是要最大化:
其中表示母节点
您可能关注的文档
最近下载
- 平狄克-微观经济学-第七版--课件.ppt VIP
- 电线电缆质量手册范本.doc VIP
- 中职英语高教版(2025)基础模块1Unit 1 Personal and Family Life 单词课件(共20张ppt)(含音频+视频).pptx VIP
- 2025年高考语文一轮复习考点通关【语言文字运用】考点38 正确使用词语(含答案).docx VIP
- 猜谜语-动物(十六).docx VIP
- 2025年高考语文一轮复习考点通关【语言文字运用】考点41 辨析与鉴赏修辞手法(含答案).docx VIP
- 沃森(VicRuns)VD120A-GS系列变频器说明书用户手册.doc
- 2025年10月离任审计述职报告范文模板.docx VIP
- 2024年《社区JW工作规范(试行)》题库.docx
- 跨境电商客户服务课件:学习情境四 跨境电子商务售中沟通与服务.pptx VIP
文档评论(0)