统计学在数据挖掘中的简单应用.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

统计学在数据挖掘中的简单应用

高印会2016年5月主要内容一、数据挖掘工作概述二、基本统计理论三、朴素贝叶斯分类算法四、隐马尔科夫模型一、数据挖掘工作概述MongoDB/HBase数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。其工作包含多个方向:1.基础数据挖掘包括常见的分类、聚类、预测、关联分析等2.文本挖掘包括情感挖掘、主题模型、Tag挖掘等3.NLP(自然语言处理)4.推荐算法5.机器学习包括计算机视觉、深度神经网络等二、基本统计理论条件概率:同时P(A|B)与P(B|A)的关系如下:贝叶斯定理:常见分布:二项、泊松、高斯概率乘法:三、朴素贝叶斯分类(NaiveBayesianclassification)--简介朴素贝叶斯分类当特征属性为连续值时,通常假定其值服从高斯分布。即:当时,即某个类别下某个特征项划分没有出现时,就会产生该现象。对没类别所有划分的计数加1,这样当训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述概率为0的情况。--特殊情况处理朴素贝叶斯分类--通用流程介绍朴素贝叶斯分类职位三级职位类别分类--实际业务应用四、隐马尔科夫模型(HiddenMarkovModel)HMM的问题抛出:如何根据海藻的状态序列和以往天气状态序列推测处以后的天气状态?--简介隐马尔科夫模型HMM的形式描述:一个隐马尔科夫模型是一个三元组:(,,)--简介马尔科夫假设:给定一个状态序列,一个状态发生的概率只依赖于前n个状态。HMM能解决的三个基本问题:--HMM解决的问题隐马尔科夫模型隐马尔科夫--HMM的维特比算法对于网格中的每一个中间以及终止状态,都有一个到达该状态的最有可能路径。我们称这样的路径为局部最佳路径,对应的概率叫做局部最佳概率。下图显示的是天气状态对于观察序列的一阶状态转移情况:最可能的隐藏状态序列是使下面这个概率最大的组合:Pr(观察序列|隐藏状态的组合)例如,对于网格中所显示的观察序列,最可能的隐藏状态序列是下面这些概率中最大概率所对应的那个隐藏状态序列:Pr(dry,damp,soggy|sunny,sunny,sunny),Pr(dry,damp,soggy|sunny,sunny,cloudy),Pr(dry,damp,soggy|sunny,sunny,rainy),....Pr(dry,damp,soggy|rainy,rainy,rainy)这种方法是可行的,但是通过穷举计算每一个组合的概率找到最可能的序列是极为昂贵的。我们可以利用这些概率的时间不变性来降低计算复杂度。--维特比算法简介隐马尔科夫模型--维特比算法简介隐马尔科夫模型隐马尔科夫模型--维特比应用场景词性标注问题:4×1×1×2×2×2×3=96种可能性,哪种可能性最大?

文档评论(0)

随风飘落 + 关注
实名认证
内容提供者

人力资源管理师持证人

一个写作爱好者,与大家分享

领域认证该用户于2023年07月07日上传了人力资源管理师

1亿VIP精品文档

相关文档