数据挖掘第八章全部加信息论熵.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘第八章全部加信息论熵

* Data Mining: Concepts and Techniques * 时间序列数据挖掘 时间序列数据库 不同时间重复测量得到的值或事件的序列构成 定期记录数据 时间序列成分的特征 趋势,循环,周期,突变 应用 金融:股票市场分析,通货膨胀 工业:能量功耗,工作负荷预测,过程和质量控制 自然科学:实验结果以及医疗处置 气象学:冰雹、大气、温度、风、地震 * Data Mining: Concepts and Techniques * 时间序列运动的种类 时间序列运动的种类 趋势或长期运动(trend curve):指时间序列图在长时间间隔运动的大体方向 周期运动或周期变化:关于趋势线或曲线的长期波动 例如:商业周期,可能是固定的也可能是不固定的 季节性运动或季节性变化 即:连续几年在相应的月份都出现了相同的事件. 不规则或随机的运动 例如:劳动纠纷、洪水或公司内部宣布的人事变化 * Data Mining: Concepts and Techniques * 估计趋势曲线 直接用手画 通过观察图来画曲线 开销大,用在大规模数据挖掘中几乎不可靠 最小二乘法 寻找曲线c,使得点与曲线c确定的对应值之差的平方和最小 移动平均法 * Data Mining: Concepts and Techniques * 移动平均 n阶移动平均 光滑数据 估计周期,季节,和不规则运动 丢失开始和结尾数据 对离群点敏感(可以用加权移动平均来减少其敏感度) * Data Mining: Concepts and Techniques * 时间序列的趋势发现:估计季节变量 季节性指标 一组数,现实变量在一年诸月份的相对值 例如:如果在10月,11月,12月的的销售分别是全年中月平均销售量的 80%, 120%, 和140%,则 80, 120,和 140就是概念的季节性指标 去季节化数据 针对季节变化来调整数据,以便更好的进行趋势和周期分析 原始月份数据处以对应的季节性指标数 * Data Mining: Concepts and Techniques * 时间序列和序列模式挖掘 回归和趋势分析—统计方法 时间序列分析中的相似性探索 * Data Mining: Concepts and Techniques * 时间序列分析中的相似性搜索 常规的数据库查询寻找精确匹配的数据 相似性搜索寻找与给定的查询序列仅有微小差距的数据序列 相似性查询的两个种类 全序列匹配:寻找彼此相似的序列集合 子序列匹配:寻找与查询序列相似的序列 典型应用 金融市场:股票数据分析 自然科学数据库:能量消耗分析 医疗分析:心电图分析 * Data Mining: Concepts and Techniques * 第八章 挖掘流、时间序列和序列数据 数据流挖掘 时间序列数据挖掘 挖掘事务数据库中的序列模式 挖掘生物学数据中的序列模式 * Data Mining: Concepts and Techniques * 序列数据库和序列模式 序列模式挖掘是挖掘频繁出现的有序事件或子序列 挖掘序列模式的应用 用户消费序列: 三个月内首先买了计算机,又买了CD-ROM,然后是数码相机 购买了佳能数码照相机的顾客很可能在一个月内购买HP彩色打印机 医学诊断,自然灾害(如:地震)科学,股票市场等 网络点击流 * Data Mining: Concepts and Techniques * 序列模式挖掘面临的挑战 数据库中隐藏着大量可能的序列模式 一个挖掘算法应该 尽可能找出满足最小支持阈值的完全模式集 高效的,可伸缩的,对数据库仅扫描很少次数 能够包含特定用户的约束 * Data Mining: Concepts and Techniques * 序列模式挖掘算法 概念引入和最初类似于Apriori的算法 Agrawal Srikant. 挖掘序列模式, ICDE’95 基于Apriori的方法: GSP (Generalized Sequential Patterns: Srikant Agrawal @ EDBT’96) 模式增长方法: FreeSpan PrefixSpan (Han et al.@KDD’00; Pei, et al.@ICDE’01) 基于垂直格式的挖掘: SPADE (Zaki@Machine Leanining’00) 基于约束的序列模式挖掘 (SPIRIT: Garofalakis, Rastogi, Shim@VLDB’99; Pei, Han, Wang @ CIKM’02) 闭序列模式挖掘: CloSpan (Yan, Han Afshar @SDM’03) * Data Mining: Concepts and Tec

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档