- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
introduction 数据仓储与数据挖掘 方案策划.ppt
* * 组件2:数据挖掘任务 根据数据分析者的目标,可以将数据挖掘任务分为: 模式挖掘 描述建模 预测建模 * * 组件2:数据挖掘任务 模式挖掘:致力于从数据中寻找模式,比如寻找频繁模式,异常点等。 频繁模式指在某个数据集中频繁出现的模式,这些模式可以是一个项集、一个子序列或者一个子结构(子图)。 例如,在交易数据集中,牛奶和面包经常在一起出现,称之为频繁的项集。 又如,人们经常在购买了个人电脑之后,就会购买打印机,称之为频繁的子序列。 在某些图、树或格结构中频繁出现的一些子图、子树或子格则被称为频繁的子结构。 * * 组件2:数据挖掘任务 预测建模:根据现有数据先建立一个模型,然后应用这个模型来对未来的数据进行预测。 当被预测的变量是范畴型(category)时,称之为分类; 当被预测的变量是数量型(quantitative)时,称之为回归。 分类模型有时也称作分类函数或分类器。分类的典型应用如,信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等。 因为分类的过程中,用到了训练集,进行了学习,所以分类是一个有监督的学习过程。 回归的典型应用如性能评测、概率估计等。 * * 组件2:数据挖掘任务 描述建模:目标是描述数据的全局特征。 描述和预测的关键区别是:预测的目标是唯一的变量,如信用等级、疾病种类等,而描述并不以单一的变量为中心。 描述建模的典型例子是聚类分析。 * * 组件3:评分函数 有了模型(模式)的结构之后,接下来的任务就是要根据数据集为模型(模式)选择合适的参数值,即将结构拟合到数据。 由于模型(模式)代表的是函数的一般形式,它的参数空间非常大,可选的参数值有很多。那么什么样的参数值比较好呢,需要一个评价指标,这个评价指标就是评分函数。 * * 组件3:评分函数 评分函数用来对数据集与模型(模式)的拟合程度进行评估。 如果没有评分函数,就无法说出一个特定的已拟合的模型是否比另一个要好。或者说,就没有办法为模型(模式)选择出一套好的参数值来。 常用的评分函数有:似然(likelihood)函数、误差平方和、准确率等。 * * 组件3:评分函数 在为模型(模式)选择一个评分函数时,既要能够很好地拟合现有数据,又要避免过度拟合(对极端值过于敏感),同时还要使拟合后的模型(模式)尽量简洁。 不存在绝对“正确”的模型(模式),所有模型(模式)都是对现有数据的一种近似。从这个角度来讲,如果模型(模式)没有随着现有数据的变化而剧烈变化,这个模型(模式)就是能够接受的了。换句话说,对数据的微小变化不太敏感的模型(模式)才是一个好的模型(模式)。 * * 组件4:搜索和优化方法 评分函数衡量了提出的模型(模式)与现有数据集的拟合程度。 搜索和优化的目标是确定模型(模式)的结构及其参数值,以使评分函数达到最小值(或最大值)。 平方差最小 准确率最高 … 数据仓库与数据挖掘 信息学院 李翠平 * * Course Outline Introduction Frequent Patterns Classification Cluster Analysis Ourlier Detection Data Warehouse and OLAP Technology for Data Mining Advanced topic in data mining Stream data mining Time-series and sequential pattern mining Graph and structured pattern mining Spatiotemporal and multimedia data mining Multi-relational and cross-database data mining Social network analysis Text and Web mining Other interesting data mining topics Data Mining Applications Examples (分组报告) * * 课程要求、成绩评估、参考书 课程要求: 按时上课和完成作业,积极参与课堂讨论, 评估成绩: 平时(50%):考勤+课堂报告 期末(50 %) : 参考书: 王珊,李翠平等,数据仓库与数据分析原理,高等教育出版社,2012 Jiawei Han: Data Mining: Concept and Techniques(数据库视角看数据挖掘) David J. Hand等,Principles of Data Mining(统计视角看数据挖掘) * * Introduction Motivation: Why data m
您可能关注的文档
- hnmr解析作业 技术方案.ppt
- hn第二版诊疗方案培训席院长 教学 讲义.ppt
- Hormone and Signal Transduction生物化学培训讲解.ppt
- How HewlettPackard Manages the Demand for Printers 管理经济学 培训讲解.ppt
- hypoxia (双语班) 病理生理学双语课件培训讲解.ppt
- IC 仪器分析选修课课件培训讲解.ppt
- ICPAES 仪器分析选修课课件技术方案.ppt
- ICPMS 仪器分析选修课课件典型实例.ppt
- IDL培训基础篇(PPT)典型实例.ppt
- IDL培训应用程序构造篇(PPT)方案策划.ppt
- Introduction 绪论 材料力学培训讲解.ppt
- Introduction 遥感科学英语教学 讲义.ppt
- IntroductiontoConstraintProgramminganditsRelationshiptoMathematicalProgrammingAConstr 优化软件与应用cplex,opl,ampl,lingo课件教学 讲义.ppt
- IntroductiontoILOGCPLEX 优化软件与应用cplex,opl,ampl,lingo课件教学 讲义.ppt
- Introduction绪论 物理化学课件技术方案.pptx
- Investment & Profits 商务现场口译课件单元PPT技术方案.ppt
- IO 管理IO设备 Linux内核分析PPT培训讲解.ppt
- IPSec与TLS 计算机系统安全课件典型实例.ppt
- ipsec信息安全概论 典型实例.ppt
- IPS技术原理 网络卫士入侵防御系统培训讲解.ppt
文档评论(0)