- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
教学课件讲义PPT教学教案培训资料医学中小学上课资料
(4) MaxDiff。 在MaxDiff直方图中, 我们考虑每对相邻值之间的差。 桶的边界是具有β-1个最大差的对, 其中β是由用户指定的阈值。 V-最优和MaxDiff是更精确和实用的方法。对于近似稀疏和稠密数据以及高倾斜和一致的数据,直方图具有较高的效能。直方图可以推广到多属性数据集,多维直方图能够描述属性间的依赖。研究发现,这种直方图对于多达5个属性能够有效地近似表示数据。对于更高维、多维直方图的有效性尚需进一步研究。对于存放具有高频率的孤立点,单桶是有用的。 3. 聚类 聚类技术将数据行视为对象。 聚类分析所得到的组或类有下述性质: 同一类或类中的对象比较相似, 不同组或类中的对象彼此不相似。 一般的类似性基于多维空间的距离表示, 用对象在空间中的“接近”程度定义。 聚类的“质量”可以用“直径”表示, 直径是指一个聚类中两个任意对象的最大距离。 质心距离是聚类质量的另一种度量, 以组或类质心(表示“平均对象”, 或聚类空间中的平均点)到每个聚类对象的平均距离。 图2-5所示为某城市内的大学位置的2D 图, 每个聚类的质心用“+”显示, 两个数据聚类如图所示。 图2-5 某城市的大学位置2D图 在数据归约时, 用数据的聚类替换原始数据。 该技术的有效性依赖于数据的性质。 如果数据能够组织成不同的聚类, 该方法将是有效的。 4. 选样 选样可以作为一种数据归约技术使用, 它采用数据的较小随机样本(子集)表示大的数据集。 假定大的数据集D包含N个元组, 几种选样方法如下: (1) 简单选择n个样本,不回放(SRSWOR)。 由D的N个元组中抽取n个样本(nN), 其中D中任何元组被抽取的概率均为1/N。即所有元组是等可能的。 (2) 简单选择n个样本,回放(SRSWR)。该方法类似于SRSWOR,不同在于当一个元组被抽取后,记录它,然后放回去。这样,一个元组被抽取后,它又被放回D,以便它可以再次被抽取。这样,最后的n个样本数据集中可能会出现相同的数据行。 (3) 聚类选样。 如果D中的元组被分组放入M个互不相交的“聚类”, 则可以得到聚类的m个简单随机选样,这里mM。 (4) 分层选样。 如果D被划分成互不相交的部分, 称做“层”, 则通过对每一层的简单随机选样就可以得到D的分层选样。特别是当数据倾斜时,这可以帮助确保样本的代表性。 例如,可以得到关于顾客数据的一个分层选样, 其中分层对顾客的每个年龄组创建。这样,具有最少顾客数目的年龄组肯定能够得到表示。 采用选样进行数据归约的优点是, 得到样本的花费正比例于样本的大小n, 而不是数据的大小N。 因此,选样的复杂性子线性(Sublinear)于数据的大小。 其他数据归约技术至少需要完全扫描D。 对于固定的样本大小, 选样的复杂性仅随数据的维数d线性地增加, 而其他技术,如使用直方图, 复杂性随d指数增长。 用于数据归约时,选样最常用来回答聚集查询。在指定的误差范围内,可以确定(使用中心极限定理)估计一个给定的函数在指定误差范围内所需的样本大小。样本的大小n相对于N可能非常小。对于归约数据集的逐步求精,选样是一种自然选择。这样的集合可以通过简单地增加样本大小而进一步提炼。 2.5 数据离散化和概念分层 2.5.1 数值数据的离散化和概念分层生成 对于数值属性, 由于数据的可能取值范围的多样性和数据值的更新频繁, 构造数值属性的概念分层是比较困难的。 数值属性的概念分层可以根据数据分布分析自动地构造。 下面介绍五种主要的数值概念分层生成方法: 分箱、 直方图分析、 聚类分析、 基于熵的离散化和通过“自然划分”的数据分段。 1. 分箱 前面讨论了数据平滑的分箱方法。 此方法也是离散化方法。 例如, 通过将数据分布到箱中, 并用平均值或中值替换方法对箱值进行平滑, 可以将属性值离散化。 递归地应用这些操作处理每次的结果, 就可以产生一个概念层次树。 2. 直方图分析 前面讨论的直方图也可以用于离散化处理。 图2-6给出了一个等宽直方图, 显示某给定数据集的数值分布。 例如, 大部分数据分布在0~2171。例如,在等宽直方图中, 将值划分成相等的部分或区间(如(0,2171), (2171,4342), …, (8685,10860))。 直方图分析算法递归地用于每一部分, 将自动地产生多级概念分层, 直到到达用户指定的层次水平后结束划分。 【例2.2】假定某属性的最小与最大值分别为$8000和$14000。 要将其映射到区间[0.0, 1.0]。 按照最小-最大规范化方法对属性值进行缩放, 则属性值$12600将变换为 z-scor
文档评论(0)