- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘决策树实验心得
正如柏拉图所说:需要是发明之母。随着信息时代的步伐不断迈进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而数据挖掘便应运而生了。正如书中所说:数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做出贡献。 1、数据挖掘 数据挖掘应当更正确的命名为:“从数据中挖掘知识”,不过后者显得过长了些。而“挖掘”一词确是生动形象的!人们把数据挖掘视为“数据中的知识发现”的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤! 由此而产生数据挖掘的定义:从大量数据中挖掘有趣模式和知识的过程!数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。作为知识发现过程,它通常包括数据清理、数据集成、数据变换、模式发现、模式评估和知识表示六个步骤。 数据挖掘处理数据之多,挖掘模式之有趣,使用技术之大量,应用范围之广泛都将会是前所未有的;而数据挖掘任务之重也一直并存。这些问题将继续激励数据挖掘的进一步研究与改进! 2、数据分析 数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步: 1、探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。 2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。 3、推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。 数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各 个过程都需要适当运用数据分析过程,以提升有效性。 由上可见,数据挖掘和数据分析虽然概念上层次清晰,作用上分工明确。但很明显的是,数据挖掘必须借助数据分析的有关方法来挖掘出有效的,对目标应用有意义的模式和知识。或者可以说:数据挖掘也可以是数据分析的一种! 在这样一个信息迅速膨胀的时代,数据挖掘和分析都与大量数据打交道。两者都离不开一种80年代后期兴起的一种高级数据分析技术:数据仓库和联机分析处理。 3、数据仓库 数据仓库是一个从多个数据源收集的信息存储库,存放在一致的的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。为便于决策,数据仓库中的数据围绕主题组织。数据存储从历史的角度提供信息,并且通常是汇总的。数据仓库提供一些数据分析能力,称作联机分析处理。 数据仓库有以下四种关键特征: 面向主题的:数据仓库围绕一些重要主题,如顾客、供应商、产品、和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常操作和事务处理。因此,数据仓库通常排除对于决策无用的数据,提供特定主题的简明视图。 集成的:通常,构造数据仓库是将多个异构数据源,使用数据清理和数据集成技术,确保命名约定,编码结构,属性度量等的一致性。 时变的:数据存储从历史的角度提供信息。数据仓库中的关键结构都隐式或显式地包含时间元素。 非易失的:数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,它只需要两种数据访问操作:数据的初始化装入和数据访问。 顺便提一下联机事务处理和联机分析处理的主要区别。 4、分类及算法 分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。 分类算法主要有决策树归纳、贝叶斯分类、使用IF-THEN规则分类、神经网络、支持向量机等。 5、聚类分析 聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的
您可能关注的文档
最近下载
- 2025年东莞市常平中学小升初入学分班考试语文模拟试卷.docx VIP
- 关于成立中医院项目商业计划书(参考).docx
- IATF16949公司级SWOT分析表范例.xls VIP
- 2025年河南省机场集团有限公司人员招聘笔试备考题库.docx VIP
- 《SLT 582-2025水工金属结构制造安装质量检验检测规程》知识培训.pptx VIP
- COUSS卡士CO-960S使用说明书.pdf VIP
- T CEPPEA 5006.3-2021 工程总承包项目文件收集与档案整理规范 第3部分:电网工程.docx VIP
- 18D705-2:电动汽车充电基础设施设计与安装.pdf VIP
- 工业用二氯丙烷》标准全文及编制说明.pdf VIP
- 水利对象分类规范.docx VIP
文档评论(0)