- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘基本概念与应用 腾讯研究院 数据分析研究室 报告内容 数据挖掘的基本概念 数据挖掘与统计分析 数据挖掘的基本算法 数据挖掘实施方法论 总结与讨论 什么是数据挖掘? 为什么会出现数据挖掘? 其他数据分析方法:统计学 数据挖掘:多学科的汇合 数据挖掘是一个过程 数据挖掘过程中的数据预处理 数据清洗 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题 主要分析方法:分箱(Binning)、聚类、回归 数据集成 多个数据库、数据方或文件的集成 数据变换 规范化与汇总 数据简化 减少数据量的同时, 还可以得到相同或相近的分析结果 主要分析方法:抽样、主成分分析 数据离散化 数据简化的一部分, 但非常重要 (尤其对于数值型数据来说) 数据挖掘过程中的数据探索 探索性数据分析(Exploratory Data Analysis, EDA) 探索性地查看数据,概括数据集的结构和关系 对数据集没有各种严格假定 “玩”数据 主要任务 数据可视化(a picture is worth a thousand words) 残差分析(数据=拟合 + 残差) 数据的重新表达(什么样的尺度-对数抑或平方根-会简化分析?) 方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值) 常见方法 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等 统计图,如饼图、直方图、散点图、箱尾图等 模型,如聚类 什么不是数据挖掘? 定量分析(Quantitative Analysis)的需要存在企业管理运行的各个侧面或环节,但并非所有的定量分析问题都可以归结到数据挖掘范畴的问题。 简单的报表、图表及多维分析仍是日常分析工作的主要内容 小样本数据的分析传统统计分析方法更成熟有效,如趋势预测 某些特定业务问题无法用数据挖掘算法加以解决,例如 资源最优配置问题是个运筹学问题 某些物流管理问题或者供应链管理问题是个随机规划问题 营销预演本质是个系统仿真问题 报告内容 数据挖掘的基本概念 数据挖掘与统计分析 数据挖掘的基本算法 数据挖掘实施方法论 总结与讨论 统计学与数据挖掘的联系 从处理数据数据挖掘中采用了大量统计学的思想、方法和工具 聚类分析(无监督学习过程,统计分析中的主要技术) K-Means Self Organizing Map (SOM) 数据分类(有监督学习过程) 统计分类技术:距离判别,费雪判别,贝叶斯判别 数据挖掘中的分类技术 :决策树,神经网络 其他方法 相关分析 主成分分析 回归分析 序列分析 统计学与数据挖掘的区别 数据 样本数量不同(在统计学中样本数量大于30,则成为大样本) 数据来源和质量不同 数据挖掘既可以处理结构化数据,也可以处理非结构化和异型数据 方法 数据挖掘的前提是占有大量数据,统计中的实验设计、抽样设计并不适用 有些数据挖掘的分析方法是统计学中没有的,如强调实时分析 统计分析方法在对大规模数据处理时占用系统的资源和时间太多,不适宜采用,因此数据挖掘大量采用神经网络、遗传算法等人工智能方法 模型(模式) 模型(统计学) VS 模式(数据挖掘) 统计建模强调模型的普适性,数据挖掘强调从数据中发现模式 算法 统计学强调模型,运算量居于次要地位 数据挖掘的精华在于结果的未知性,强调探索性分析,与之对应的是算法而不是模型 方法论 统计学:以数学为基础,每种方法有严格的证明体系 数据挖掘:采用实验方法,不具有很强的严谨性 数据挖掘相对于统计学的特点 使用数据挖掘工具无须具备太专业的统计知识,处理大量的实际数据更有优势,使得数据挖掘人员可以集中精力在业务建模方面 数据挖掘从大型数据库提取所需数据,利用专属计算机软件进行分析,更能满足企业的需求 从理论的角度来看,数据挖掘与统计学不同,其目的在于方便企业的末端使用者应用,而非为统计学家提供检验工具 报告内容 数据挖掘的基本概念 数据挖掘与统计分析 数据挖掘的基本算法 数据挖掘实施方法论 总结与讨论 几个基本概念 模型(Model) vs 模式(Pattern) 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析 算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出 描述型挖掘(Descriptive) vs 预测型挖掘(Predictive) 描述型挖掘:对数据进行概括,以方便的形式呈现数据
您可能关注的文档
- 书籍装帧历史演进.ppt
- 梳理探究1:优美汉字.ppt
- 输血实验室安全防护(67p).ppt
- 蔬菜的营养、功能和食疗.ppt
- 蔬果皮6个妙用,厨余垃圾再利用!.doc
- 树枝状高分子简介.ppt
- 数据结构__课程设计之哈夫曼编码.doc
- 数据结构哈弗曼编码实验.doc
- 数据结构课程设计(赫夫曼编码).doc
- 数据结构课程设计报告Huffman编码和文件压缩.docx
- 2025年广东省地震局事业单位第二批招聘笔试高频难、易错点备考题库带答案详解.docx
- 2025年广东广州市番禺区职业技术学招聘合同制教师8人通告笔试高频难、易错点备考题库附答案详解.docx
- 2025年广西百色市西林县民政局招聘4人笔试高频难、易错点备考题库含答案详解.docx
- 2025年广西钦州市市直中学教师专场招聘140人笔试高频难、易错点备考题库带答案详解.docx
- 2025年山西省公安厅交通管理总队招聘300名警务辅助人员笔试高频难、易错点备考题库带答案详解.docx
- 2025年徐州市事业单位定向招聘退役大学生士兵10人笔试高频难、易错点备考题库及完整答案详解1套.docx
- 2025年山东省教育厅直属事业单位招聘18人笔试备考题库含答案详解.docx
- 2025年广东云浮郁南县监委郁南县公安局招聘专职留置看护队员10人笔试备考题库及完整答案详解1套.docx
- 2025年最高人民检察院北戴河检察技术保障中心招聘社会在职人员笔试高频难、易错点备考题库参考答案详解.docx
- 2025年山东省委党校(山东行政学院)上半年招聘11人笔试高频难、易错点备考题库带答案详解.docx
最近下载
- FloEFD 2312(For NX)软件实例教程 第7-8章.pdf VIP
- 边坡开挖及支护监理实施细则.doc VIP
- DB3301T0190-2016生活垃圾分类管理规范 ..pdf VIP
- 随州市随县县城社区招聘社区专职工作者考试真题2024.docx VIP
- 化工中试平台建设实施方案.docx
- 成功科技化金药水配合无氰金盐测试项目.ppt VIP
- 列车调度指挥系统、调度集中系统组网技术条件.pdf VIP
- 2025年天翼云高级运维工程师认证参考试题库资料(含答案).pdf
- 气管切开非机械通气患者气道护理规范(2020年版指南解读).pptx VIP
- 2025银行数据分类分级规范.docx VIP
文档评论(0)