- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
什么是数据挖掘
数据挖掘 (Data Mining) ,又称为数据库中的知识发现 (Knowledge Discovery in Database, KDD) ,就是
从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘 就是从大量数据中提取或 “挖掘 ”知识。
并非所有的信息发现任务都被视为数据挖掘。 例如, 使用数据库管理系统查找个别的记录, 或通过因特 网的搜索引擎查找特定的 Web 页面,则是信息检索( information retrieval )领域的任务。虽然这些任务是 重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特 征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的 能力。
数据挖掘的起源
为迎接前一节中的这些挑战, 来自不同学科的研究者汇集到一起, 开始着手开发可以处理不同数据类型 的更有效的、可伸缩的工具。这些工作建立在研究者先前使用的方法学和算法之上,在数据挖掘领域达到 高潮。特别地, 数据挖掘利用了来自如下一些领域的思想: (1) 来自统计学的抽样、 估计和假设检验, (2) 人 工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域 的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。
一些其他领域也起到重要的支撑作用。 特别地, 需要数据库系统提供有效的存储、 索引和查询处理支持。 源于高性能 (并行) 计算的技术在处理海量数据集方面常常是重要的。 分布式技术也能帮助处理海量数据, 并且当数据不能集中到一起处理时更是至关重要。
数据挖掘能做什么
数据挖掘能做以下六种不同事情(分析方法):
?分类(Classification )
?估值(Estimation )
?预言(Prediction )
?相关性分组或关联规则( Affinity grouping or association rules ) ?聚集( Clustering )
?描述和可视化( Des cription and Visualization )
?复杂数据类型挖掘 (Text, Web , 图形图像,视频,音频等 )
数据挖掘分类
以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘
?直接数据挖掘
目标是利用可用的数据建立一个模型, 这个模型对剩余的数据, 对一个特定的变量 (可以理解成数据库 中表的属性,即列)进行描述。
?间接数据挖掘 目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。
?分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘
各种分析方法的简介
?分类 ( Classification )
首先从数据中选出已经分好类的训练集, 在该训练集上运用数据挖掘分类的技术, 建立分类模型, 对于 没有分类的数据进行分类。
例子:
信用卡申请者,分类为低、中、高风险
分配客户到预先定义的客户分片 注意: 类的个数是确定的,预先定义好的
?估值( Estimation )
估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的 类别是确定数目的,估值的量是不确定的。
例子:
根据购买模式,估计一个家庭的孩子个数
根据购买模式,估计一个家庭的收入
估计 real estate 的价值
一般来说, 估值可以作为分类的前一步工作。 给定一些输入数据, 通过估值,得到未知的连续变量的值, 然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分( Score
0~1 )。然后,根据阈值,将贷款级别分类。
?预言( Prediction ) 通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量 的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测, 这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
?相关性分组或关联规则( Affinity grouping or association rules )
决定哪些事情将一起发生。
例子:
超市中客户在购买 A的同时,经常会购买 B,即A = B(关联规则)
客户在购买A后,隔一段时间,会购买 B (序列分析)
?聚集(Clustering)
聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类, 不需要训练集。
例子:
一些特定症状的聚集可能预示了一个特定的疾病
租 VCD 类型不相似的客户聚集,可能暗示成员属于不同的亚文化群
聚集通常作为数据
您可能关注的文档
- 2020年新版2020年新版医院装修技术标.docx
- 2020年新版医院高层综合病房楼装饰工程施工组织设计.docx
- 2020年新版一次函数几何拔高专题.docx
- 2020年新版养殖场质量控制措施.docx
- 2020年新版医药城-模板专项施工方案最新.docx
- 2020年新版压力容器制造施工方案(2).docx
- 2020年新版卸料平台(落地式)安全专项施工方案.docx
- 2020年新版小区弱电系统施工组织方案.docx
- 2020年新版小河沟桥梁施工方案.docx
- 2020年新版向阳大桥施工方案.docx
- 2025年中国乙氧苯柳胺软膏市场调查研究报告.docx
- 2025年及未来5年电信设备项目市场数据调查、监测研究报告.docx
- 2025年中国产宝口服液市场调查研究报告.docx
- 2025年及未来5年远红外线热敷按摩仪之瑞颈灵项目市场数据分析可行性研究报告.docx
- 2025年中国2—氨基—4,6—二氯嘧啶市场调查研究报告.docx
- 2025年及未来5年双层风琴帘项目市场数据调查、监测研究报告.docx
- 2025年及未来5年多功能短路定位分析仪项目市场数据调查、监测研究报告.docx
- 2025年中国换芯型烟嘴市场调查研究报告.docx
- 2025年及未来5年印章防伪项目市场数据调查、监测研究报告.docx
- 2025年中国超小型冷冻修边机市场调查研究报告.docx
最近下载
- 国家重点研发计划项目综合绩效自评价报告.docx
- 中考数学几何模型汇编.pdf VIP
- 光伏强制性条文执行计划清单.pdf VIP
- [西南大学]《中国古代诗歌》期末试卷.doc VIP
- 3《小学教师专业发展》第二章小学教师专业素养结构.docx VIP
- 2025入党积极分子发展对象考试精选100题题库(含答案).pdf VIP
- 生理学-10神经系统的功能.ppt VIP
- 《悠长假期》日文台词(修改版).doc VIP
- 实施指南《GB_T12712 - 2023蒸汽供热系统凝结水回收及蒸汽疏水阀技术管理要求》实施指南.docx VIP
- 医疗机构网络设备运维服务项目服务方案投标文件(技术标).doc
原创力文档


文档评论(0)