数据挖掘-理论、方法和应用.pdf

  1. 1、本文档共91页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘-理论、方法和应用

数据挖掘:理论、方法和应用 周涛 zhutouster@ 数据挖掘的理念 • 数据是企业的战略资源 • 数据挖掘以很小成本带来巨大价值 • 数据的商业价值是开放的 • 数据仓库-数据挖掘-数据科学 • 数据挖掘发展线路图 • 做好数据挖掘必须要有研究人员的视野和 心态,要看作游戏而不是任务 数据挖掘的学科支撑 • 概率论 • 数理统计 • 数据库 • 数据结构 • 人工智能与机器学习 **统计学,金融统计与统计物理 ** 网络科学 **复杂性科学 数据分析的主流错误 • 不考虑方差算均值 • 不考虑异质性算相关 • 忽略偏相关和因果关系 • 缺乏噪音和背景分析 • 以主观臆断代替数据表现 数据统计分析 • 分布形态 • 位置度量:均值、中位数和众数 • 异质性测量:方差、多样性和基尼系数 • 阵发和记忆 • 相关性和相似性 身高分布 典型财富分布 M. Levy, S. Solomon, Physica A 1997 A. Dragulesca, V. M. Yakovenko, Physica A 2001 手机联系人数目分布 [760万用户,126天] J.-P. Onneal, et al., New J, Phys. 2007 短信联系人数目分布 H. Xia, T. Zhou, Europhys. Lett. 2011 手机用户出行距离分布 M. C. Gonzalez, C. A.Hidalgo, A.-L. Barabasi, Nature 2008 右斜分布的不同形态 位置度量 • 平均值:与宏观量联系最紧密,最直观的 描述,在方差很大的情况下容易产生误 解,鲁棒性低 • 中位数:存在极端数据的情况下鲁棒性 高,描述往往能够反映更多数据的大致情 况 • 众数:适合于对单峰,平滑,有特征尺度 的数据进行描述,类似于最可几概率 异质性 • 方差:对均值偏离程度的刻画,受少数极 端数据点的影响很大 • 多样性:辛普森指数和香农熵,定性衡量 样本在各个“类”之间分布是否均匀 • 基尼系数:定量考察个体在量的分配上是 否均匀 • 方差、多样性和基尼系数共同构成了对数 据集异质性的描述 阵发和记忆 K.-I. Goh, A.-L. Barabasi, Europhys. Lett. 2008 应用案例1:网络水军甄别 人类行为对泊松分布的偏离 A.-L. Barabasi, Nature 2005 在线活动的典型特征 T. Zhou, H.A.-T. Kiet, B.-H. Wang, B.-J. Kim, P. Holme, Europhys. Lett. 2008 在线活动的典型特征 Z.-D. Zhao, T. Zhou, Physica A 2011 相关性 • Z-score重定标 • 协方差 • Pearson关联 • Kendall’s Tau • 非平稳序列之间的相关性问题 相似性 • 基于距离的相似性 • 基于内积的相似性 • 基于共同邻居的相似性 Jaccard Cosin Sorensen Adamic-Adar Resource-Allocation •

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档