建模数据挖掘.docVIP

下载本文档

6
0
约4.8千字
约 4页
2017-07-14 发布于浙江
举报
版权申诉

建模数据挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

建模数据挖掘

说实话，建模期间学到的知识量比较大，但是不深入，建模期间时间紧张，也是效率优先，现在建模空档期，系统的学下相关建模知识，不止为建模，主要是学会方法及其应用数据挖掘(Data Mining)是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。数据挖掘利用了来自如下一些领域的思想：(1) 来自统计学的抽样、估计和假设检验，(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想，这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地，需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能（并行）计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据，并且当数据不能集中到一起处理时更是至关重要。看得出来该方法与遗传算法的联系，完全可以考虑在两者之间建立一些联系数据挖掘能做以下七种不同事情　　（分析方法）：　　数据挖掘· 分类（Classification）　　· 估计（Estimation）　　· 预测（Prediction）　　· 相关性分组或关联规则（Affinity grouping or association rules）　　· 聚类（Clustering）　　· 描述和可视化（Description and Visualization）　　· 复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等) 数据挖掘分类　　以上七种数据挖掘的分析方法可以分为两类：直接数据挖掘；间接数据挖掘　　· 直接数据挖掘　　目标是利用可用的数据建立一个模型，这个模型对剩余的数据，对一个特定的变量（可以理解成数据库中表的属性，即列）进行描述。　　· 间接数据挖掘　　目标中没有选出某一具体的变量，用模型进行描述；而是在所有的变量中建立起某种关系。　　· 分类、估值、预言属于直接数据挖掘；后四种属于间接数据挖掘 3)各种分析方法的简介　　·分类（Classification）　　首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。　　例子：　　a. 信用卡申请者，分类为低、中、高风险　　b. 故障诊断：中国宝钢集团与上海天律信息技术有限公司合作，采用数据挖掘技术对钢材生产的全流程进行质量监控和分析，构建故障地图，实时分析产品出现瑕疵的原因，有效提高了产品的优良率。　　注意：类的个数是确定的，预先定义好的　　· 估计（Estimation）　　估计与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类数据挖掘的类别是确定数目的，估值的量是不确定的。　　例子：　　a. 根据购买模式，估计一个家庭的孩子个数　　b. 根据购买模式，估计一个家庭的收入　　c. 估计real estate的价值　　一般来说，估值可以作为分类的前一步工作。给定一些输入数据，通过估值，得到未知的连续变量的值，然后，根据预先设定的阈值，进行分类。例如：银行对家庭贷款业务，运用估值，给各个客户记分（Score 0~1）。然后，根据阈值，将贷款级别分类。　　· 预测（Prediction）　　通常，预测是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言。从这种意义上说，预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测，这种预测是需要时间来验证的，即必须经过一定时间后，才知道预言准确性是多少。　　· 相关性分组或关联规则（Affinity grouping or association rules）　　决定哪些事情将一起发生。　　例子：　　a. 超市中客户在购买A的同时，经常会购买B，即A = B(关联规则) 　　b. 客户在购买A后，隔一段时间，会购买B （序列分析）　　· 聚类（Clustering）　　聚类是对记录分组，把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。　　例子：　　a. 一些特定症状的聚集可能预示了一个特定的疾病　　b. 租VCD类型不相似的客户聚集，可能暗示成员属于不同的亚文化群　　聚集通常作为数据挖掘的第一步。例如，哪一种类的促销对客户响应最好？，对于这一类问题，首先对整个客户做聚集，将客户分组在各自的聚集里，然后对每个不同的聚集，回答问题，可能效果更好。　　·