- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Data Mining 数据采矿的技术与应用
功能
说明
技术
适用领域
分类(Classification)
根据数据的特性, 将其指定到现有事先定义好的类别/群集中
事前必须对数据的结构, 解释及定义有一定的了解
Profiling
判定树(decision tree)
记忆基础推理(memory-based reasoning)
将信用卡风险分为高中低风险
将客户以年龄, 性别, 居住地区, 来看的电影作区分
将客户分为20岁以下, 20-30, 30-40, 40以上
推估 (Estimation)
使用模型为输入变量做评分, 依输出分数设定门坎值, 完成分类
根据既有连续性数值(如教育程度)之相关属性数据, 以推估某一属性未知之值
回归分析
统计关联分析
类神经网络
推估家庭中孩童的数量
推估家庭的总收入
推估客户的终身价值
推估顾客接受转账缴款的机率
推估申请人的信用卡消费量
预测 (Prediction)
推估未来的数值的趋势
以历史数据为模型, 将最新数据为输入值, 以获得关于未来的输出预测值
根据对象属性的历史观察值来推估该属性之未来值
回归分析
时间序列分析
类神经网络
购物篮 (market basket)
记忆基础理解(MBR)
由顾客过去卡消费量预测未来刷卡消费量
杂货店中那些商品会被同时购买
若持卡人以转账付款, 预测本月的余额会有多少
那些客户未来6个月会流失
关联分组 (Affinity Grouping or Association)
发觉那些事物总是同时发生
建立交叉销售的基础
决定那些相关对象应放在一起
- 购物篮分析
- 决定超市中那些货品应放在同一货架上(同时买面包及牛奶)
- 建立交叉销售促销案
- 建立搭售之套餐组合
- 决定型录的编排方式
群集化 (Clustering)
将一群异质的群体区隔为同构型较高的群集
群集并非以事先定义的类别来分类, 而是让数据自然产生区隔, 且靠事后的阐释来得知意义
让群组内数据相似度最高, 让群组与群组间数据相似度最低(群内同质, 群间异质)
通常是数据采矿及模型化的前置作业
K-means
Agglomeration法
分析那一群顾客喜欢那一类的促销的分群工作
描述 (Description)
描述在复杂的数据库中发生什么事?
购物篮分
趋势图
两变量关联或比较图
序列模式 (Sequence Pattern)
顾客通常在购买某类商品后, 经过一段时间会再购买另一类商品
关联规则关心同一时间发生相关的交易, 序列模式关心不同时间发生相关的交易
租过第一集, 经过一段时间后, 会再租第二集, 然后第三集
买过绵被, 枕头, 床单后, 一段时间会再购买纸尿裤及奶粉
监督式数据采矿, 是以top-down方式, 先有假设, 及变量, 以预测模型来验证; 非监督式数据采矿, 是以bottom-up方式, 找出特定变量, 让数据变量间的关系自己说话的方式, 自动产生样式及规则, 由用户判断规则的重要与否.
通常在分析过程中需要产生衍生变量, 包括某两个变量间的总和, 相差, 比例等.
源数据包括(1)通联数据库(contact database): 含CTI, DM, Fax, store visit; (2)事务数据库(transaction database): 含每日授权, 请款交易, CDR, 购买产品, 退货交易; (3)缴款/风险数据库(payment/risk database): 含延迟缴款, 呆账, 还款, 客户风险评分(CVS); (4)人口变项数据库(demographic database): 含profile, 年龄, 性别, 居住地等; (5)营销数据库(campaign database): 促销案, DM, 电话营销之目标, 响应, 拒绝客户数据.
判定树(decision tree), 选择最重要且最有分隔能力的属性来分隔数据. 步骤为(1)选择一属性 (2)利用属性作分类 (3)计算分类后之平均分散度, 能使分散度降到最低, 即为最佳分隔属性., 直到没有属性可以降低分散度.
购物篮(market basket)分析常使用在有足够数据却不清楚规律主题或规则时, 可适用于监督式及非监督式, 可用于探讨两变量间的关系, 如果买了A, 也会购买B的机率; 通常结果会出现明显的结果(业界老手已经知道的事), 及无法理解的结果(看来没有解释的). 通常购物篮分析会(1)选择正确的组合, 利用分类, 加上虚拟卷标作差异变量, 去除outlier, (2)计算超过门坎的商品, 分析可能同时发生之机率. 优点是有简单明了的结论, 非常适用于非监督式分析, 缺点是商品增加时, 运算会成几何级数增加, 很难决定适当的商品数, 且容易剔除罕见
您可能关注的文档
- 2013版用于立项复杂深井钻井装备项目可行性研究报告(甲.docx
- 2013版用于立项海洋石油钻井平台直升机坪项目可行性研.docx
- 2013版用于立项石油勘探开发设备项目可行性研究报告(甲.docx
- 2013版用于立项深水钻井船项目可行性研究报告(甲级资质.docx
- 2013版用于立项能源、矿产资源的勘探项目可行性研究报.docx
- 2013版用于立项铁铝钒土矿开采项目可行性研究报告(甲级.docx
- 2013版用于立项高温地热勘探项目可行性研究报告(甲级资.docx
- 2013版用于立项高精度电磁波勘探项目可行性研究报告(甲.docx
- 2014北京大学矿物学、岩石学、矿床学考研 招生人数 参.doc
- 21世纪钻井技术展望.doc
原创力文档


文档评论(0)