- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘工具简介.ppt
SEMINAR ◆题目:数据挖掘工具和应用中的问题 发表杂志:东北大学学报(2001.04) 作者:郝先臣,张德干,高光来,赵海 所属机构:东北大学信息科学与工程学院 ◆题目:国内数据挖掘工具研究综述 发表杂志:情报杂志(2008年第10期) 作者:钱峰 所属机构:南京大学商学院 ◆题目:国外先进数据挖掘工具的比较分析 发表杂志:计算机工程(2003第16期) 作者:张海英 所属机构:南京农业大学信息科技学院 ◆题目:Web数据挖掘技术及工具研究 发表杂志:计算机工程与应用2001年第20期 作者:邓 英 李 明 所属机构:甘肃工业大学电气工程与信息工程学院 题目:数据挖掘工具和应用中的问题 发表杂志:东北大学学报(2001.04) 作者:郝先臣,张德干,高光来,赵海 所属机构:东北大学信息科学与工程学院 论文结构 一、数据挖掘方法论 数据取样 数据探索 数据调整 数据分析 结果评价 二、数据挖掘工具 三、应用性能比较分析 四、待解决的问题 1 数据挖掘方法论 1、数据挖掘方法论 数据挖掘的过程一般由三个主要的阶段组成: (1)、数据准备 数据采样(集成)、数据探索(选择)、数据调整(预处理) (2)、数据分析(挖掘操作) ①首先决定如何产生假设; ②选择合适的工具; ③发掘知识 的操作; ④证实发现的知识 (3)、 结果评价(表达和解释) 这个阶段根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分开来,并且通过决策支持工具提交给决策者 1 数据挖掘方法论 1. 1 数据取样(Sample) 当进行数据挖掘时,首先要从企业大量数据中取出一个与要探索问题相关的样板数据子集,而不是动用全部企业数据。 通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使想要它反映的规律性更加凸现出。 如果是要进行过程的观察控制,这时可进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计。 若想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性。 1 数据挖掘方法论 1. 2 数据探索(Explore) 当拿到了一个样本数据集后,它是否达到原来设想的要求;其中有没有什么明显的规律和趋势;有没有出现从未设想过的数据状态;因素之间有什么相关性;它们可区分成怎样一些类别……这都是要首先探索的内容。 进行数据特征的探索、分析,最好是能进行可视化的操作。这里的数据探索,就是通常所进行的深入调查的过程。最终要达到的目的可能是要搞清多因素相互影响的、十分复杂的关系。 但是,这种复杂的关系不可能一下子建立起来。一开始,可以先观察众多因素之间的相关性;再按其相关的程度,以了解它们之间相互作用的情况。 1. 3 数据调整(Modify) 通过上述两个步骤的操作,对数据的状态和趋势可能有了进一步的了解。对原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能进一步的量化。问题越明确,越能进一步量化,问题就向它的解决更前进了一步。这是十分重要的。 在问题进一步明确化的基础上,就可以按照问题的具体要求来审视数据集了,看它是否适应问题的需要。Gartner Group在评论当前一些数据挖掘产品时特别强调指出:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行。 1 数据挖掘方法论 1. 4 数据分析(Analysis) 这一步是数据挖掘工作的核心环节。正如Gartner Group评论中所指出的:数理统计方法是数据挖掘工作中最常用的主流技术手段。各种不同类型模型、不同特点数据的回归分析,如正交回归、响应面回归、Logistic回归、非线性回归等,且有多种形式模型化的方法选择。 在数据挖掘中使用哪一种方法,这主要取决于数据集的特征和要实现的目标。 1 数据挖掘方法论 1. 5 结果评价(Assess) 从上述过程中将会得出一系列的分析结果、模式或模型。若能得出一个直接的结论当然很好。但更多的时候会得出对目标问题多侧面的描述。这时就要能很好的综合它们的影响规律性提供合理的决策支持信息。 评价的办法之一是直接使用原来建立模型的样板数据来进行检验。假如这一关就通不过的话,那末决策支持信息的价值就不太大了。 另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的。 再一种办法是在实际运行的环境中取出新鲜数据进行检验。如在一个应用实例中,就进行了一个月的现场实际检验。 1 数据挖掘方法论 2 数据挖掘工具 数据挖掘工具主要有两类 (
您可能关注的文档
最近下载
- 涉密运行维护管理制度.docx VIP
- MobileFlow-大模型驱动的终端自动化测试新范式-2025研发效能最佳实践.pdf VIP
- OPPO企业AI赋能研效提升的应用与原理解析-2025研发效能最佳实践.pdf VIP
- 《第四单元 西方音乐发展史掠影学习学习项目二 音乐中的浪漫主义》七年级上册音乐人教版 教案(表格式)(2024新版).docx
- T∕CACM 1090-2018 中医治未病技术操作规范 穴位敷贴.docx VIP
- 学科教学与综合育人能力提升谈谈个人见解与感悟.docx VIP
- 新解读《GB_T 35070.3-2018停车场电子收费 第3部分:交易流程》.docx VIP
- 1 《中国人民站起来了》课件(共61张PPT)统编版高中语文选择性必修上册.pptx VIP
- CMF:中国宏观经济专题报告(第98期):读懂价格信号,稳住经济大盘.pdf VIP
- 字节跳动 研发效能提升之道-2025研发效能最佳实践.pdf VIP
文档评论(0)