- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章
1.6
(1)数据特征化是目标类数据的一般特性或特征的汇总。
例如,在某商店花费 1000 元以上的顾客特征的汇总描述是:年龄在 40— 50 岁、有工
作和很好的信誉等级。
(2 )数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比
较。
例如, 高平均分数的学生的一般特点, 可与低平均分数的学生的一般特点进行比较。 由
此产生的可能是一个相当普遍的描述,如平均分高达 75 %的学生是大四的计算机科学专业
的学生,而平均分低于 65%的学生则不是。
(3 )关联和相关分析是指在给定的频繁项集中寻找相关联的规则。
例如,一个数据挖掘系统可能会发现这样的规则: 专业 (X , “计算机科学 ”)=拥有 (X,”
个人电脑 “) [support= 12 %, confidence = 98 %] ,其中 X 是一个变量,代表一个学生,该规
则表明, 98%的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人
电脑的可能性是 98%。12%的支持度意味着所研究的所有事务的 12%显示属于计算机科学专
业的学生都会拥有个人电脑。
(4 )分类和预测的不同之处在于前者是构建了一个模型 (或函数),描述和区分数据类或概
念,而后者则建立了一个模型来预测一些丢失或不可用的数据, 而且往往是数值, 数据集的
预测。它们的相似之处是它们都是为预测工具: 分类是用于预测的数据和预测对象的类标签,
预测通常用于预测缺失值的数值数据。
例如 :某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时
用到的则是分类; 当研究某只股票的价格走势时, 会根据股票的历史价格来预测股票的未来
价格,此时用到的则是预测。
(5 )聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行
聚类和分组。 聚类还便于分类法组织形式, 将观测组织成类分层结构, 把类似的事件组织在
一起。
例如: 世界上有很多种鸟,我们可以根据鸟之间的相似性, 聚集成 n 类,其中 n 可以认
为规定。
(6 )数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。这可能包括时
间相关数据的特征化、区分、关联和相关分、分类、预测和聚类,这类分析的不同特点包括
时间序列数据分析、序列或周期模式匹配和基于相似性的数据分析。
例如 :假设你有纽约股票交易所过去几年的主要股票市场(时间序列)数据,并希望投
资高科技产业公司的股票。 股票交易数据挖掘研究可以识别整个股票市场和特定的公司的股
票的演变规律。 这种规律可以帮助预测股票市场价格的未来走向, 帮助你对股票投资做决策。
1.11 一种是聚类的方法,另一种是预测或回归的方法。
(1)聚类方法:聚类后,不同的聚类代表着不同的集群数据。这些数据的离群点,是不属
于任何集群。在各种各样的聚类方法当中,基于密度的聚类可能是最有效的。
(2 )使用预测或回归技术:构建一个基于所有数据的概率(回归)模型,如果一个数据点
的预测值有很大的不同给定值,然后给定值可考虑是异常的。
用聚类的方法来检查离群点更为可靠, 因为聚类后, 不同的聚类代表着不同的集群数据,
离群点是不属于任何集群的, 这是根据原来的真实数据所检查出来的离群点。 而用预测或回
归方法,是通过构建一个基于所有数据的 (回归)模型, 然后根据预测值与原始数据的值比
较,当二者相差很大时, 就将改点作为离群点处理,这对所建立的模型有很大的依赖性,另
外所建立的模型并不一定可以很好地拟合原来的数据,
原创力文档


文档评论(0)