数据挖掘感想.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘感想 通过学习一个学期得数据挖掘课对数据挖掘有了一定得理解 ,也掌握 了,理解了一些数据挖掘中用到得重要得算法 .在这个数据膨胀得大数 据时代我们需要筛选,查询数据 ,处理数据 .我们瞧到得听到得都就是 数据 ,在这互联网时代数据更多 ,信息很多。但就是有些网站比如百度, 谷歌 ,雅虎等为我们得学习生活带来了很多便利 .我们为了更正确更有 效得利用与处理数据必须要利用数据挖掘技术, 因为有了这技术我们 以后得数字化生活变得更方便, 不会因为数据多 ,信息多而感到反感。 所以我真正得体会到了数据挖掘得优越性。 同时我学习一些算法过后 也感觉到了其复杂性 ,因为数据挖掘算法众多 ,掌握起来比较困难。 我们主要学习了贝叶斯分类算法 ,决策树分类算法等算法,这些就是 比较简单并且利用比较广泛得算法。也学习了数据得概念 ,数据理解 包括收集原始数据、 数据描述、 数据探索分析与数据质量描述。 我们 首先收集大量得数据然后对此进行数据描述分类数据 ,然后优化净化 数据 ,并对此进行分类整理,保存查询 ,搜索数据等 . 贝叶斯算法 :贝叶斯分类基于贝叶斯定理,贝叶斯定理就是 由18世纪概率论与决策论得早起研究者 Tho mas Bayes发明得,故 用其名字命名为贝叶斯定理。 分类算法得比较研究发现, 一种称为朴 素贝叶斯分类法得简单贝叶斯分类法可以与决策树与经过挑选得神 经网络分类器相媲美。用于大型数据库 ,贝叶斯分类法也已表现出高 准确率与高速度。 目前研究较多得贝叶斯分类器主要有四种 ,分别就 是:N aiv e Baye s、TA N、BAN 与 GBN。 非晴天 非晴天 0、01: P(h2 )=0、0 1 朴素贝叶斯分类就是一种十分简单得分类算法, 思想基础就 是这样得:对于给出得待分类项,求解在此项出现得条件下各个类别 出现得概率,哪个最大,就认为此待分类项属于哪个类。 贝叶斯定理(Bayes th e o r e m)就是概率论中得一个结 果,它跟随机变量得条件概率以及边缘概率分布 有关。在有些关于概 率得解说中,贝叶斯定理能够告知我们如何利用新证据修改已有得瞧 法。 通常,事件A在事件B(发生)得条件下得概率,与 事件E在事件A得条件下得概率就是不一样得;然而,这两者就是有确 定得关系,贝叶斯定理就就是这种关系得陈述。 贝叶斯公式提供了从先验概率 P(A )、P(B)与P(B|A)计算后 验概率 P (A| E)得方法:P(A| B )= P ( B|A)* P(A )/P( B) ,P(A| B)随着P(A)与 P( B| A)得增长而增长,随着P(B得增长而减少,即如果 B独立于A时被观察到得可能性越大,那么 B对A得支持度越小。 ?举例:一个天气估计问题 ?两个假设H: h 1={晴天}、h2 ={非晴天} ?可观察到得数据:温度高+与温度低- ?先验知识p(h) ? 北京晴天得概率0、99: P(h1 )=0、 ?观察到得概率P(D| h) ? P (温度高 丨晴天)二0、85 ? P (温度低|非晴天)二0、93 ?问题:现在观察到温度低,判断就是否非晴天? ?极大似然计算 P(非晴天|温度低) * P (温度低|非晴天) =0、9 3 P(晴天|温度低) * P (温度低|晴天) =0、15 答案:非晴天 决策树: 决策树:训练集:数据得集合,用于生成树(模型) 测试集:用于测试树(模型)得性能 决策树作用:主要就就是训练数据除去脏数据 通过训练集 算法指导下 生成决策树 新数据进行划分 否则就是三拍决策 N个分割属性得 数据大量产生,技术得成熟提供基础 有多大得比例泡在网上,再加上未来各种数据大量产生这一点就不用说了*瞧瞧我们每个人一天得生活里会 有多大得比例泡在网上,再加上未来各种 数据量之大难以想象。我主要想谈谈技术,也许技术这个词不够专业; 自己在编程,数据存储方面也不就是特别了解 ,这里就说说算法这一 部分.记得原先在《数据结构与算法》与得计算机求与计算; 式哪个利好?尾两个 部分.记得原先在《数据结构与算法》 与得计算机求与计算; 式哪个利好? 尾两个 我们从小就知 卜数据与就是 一开篇就提到关于等差数列求 I道怎差么列生与成用算得? 样得数据结构特征从而更简 洁。告诉计算机进行求与命令可以就是两种方法 1、一项项得加;2、 直接利用算法,利用第一个方式可能在数据量少得时候计算速度与第 二种相比不会有太大得差异,但如果数据量很大,后者得优越性将很 明显。后来在接触到A pri o r i算法时候里用瞧到算法会用到一些剪 枝手段减少计算机运算量得时候忍不住拍案叫绝。 另外,各式各样得统计软件得背后都有着大量得c o n trib u tors将自己得算法程序包分享到网上;供后来人更便捷得

文档评论(0)

xusheng + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档