- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据分析与挖掘;大数据为人服务,为企业和个人提供决策参考,让人少犯错,更聪明。这方面主要体现在精准营销、用户需求、市场拓展、趋势预测、资源配置、产品升级。;大数据分析概述;1、认清事实
2、找出规律
3、预测未来
4、洞悉关系
;大数据分析的主要任务主要有:第一类是预测任务,第二类是描述任务,具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。
;大数据分析主要有描述性统计分析、探索性数据分析以及验证性数据分析等。
;验证性数据分析注重对数据模型和研究假设的验证,侧重于已有假设的证实或证伪。假设检验是根据数据样本所提供的证据,肯定或否定有关总体的声明。;大数据分析的内容主要有数据挖掘算法、大数据预测性分析以及可视化分析等。
;大数据分析的方法;简言之,确定对象属于哪个预定义的目标类。
????学术一点:通过学习得到一个目标函数f(分类模型),把每个属性集x映射到一个预先定义的类标号y。
;虽然我们人类都不喜欢被分类,被贴标签,但数据研究的基础正是给数据“贴标签”进行分类。类别分得越精准,我们得到的结果就越有价值。
;例如,在家长眼里乖巧的小明是一个好孩子,同时家长也想确保他会在学校做一名“好学生”而不是“坏学生”。这里的区分“好学生”和“坏学生”就是一个分类任务。
;分类是一个有监督的学习过程,目标数据库中有哪些类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别之中。由于必须事先知道各个类别的信息,并且所有待分类的数据条目都默认有对应的类别,因此分类算法也有其局限性。
;常用的分类算法包括:NBC(NaiveBayesianClassifier,朴素贝叶斯分类)算法、LR(LogisticRegress,逻辑回归)算法、ID3(IterativeDichotomiser3迭代二叉树3代)决策树算法、C4.5决策树算法、C5.0决策树算法、SVM(SupportVectorMachine,支持向量机)算法、KNN(K-NearestNeighbor,K最近邻近)算法、ANN(ArtificialNeuralNetwork,人工神经网络)算法等。
;“别和其他坏学生在一起,否则你也会??他们一样。”????——家长
这句话通常来自家长的劝诫,但它透露着不折不扣的近邻思想。在分类算法中,K最近邻是最普通也是最好理解的算法。它的主要思想是通过离待预测样本最近的K个样本的类别来判断当前样本的类别。
家长们希望孩子成为好学生,可能为此不惜重金购买学区房或者上私立学校,一个原因之一是这些优秀的学校里有更多的优秀学生。与其他优秀学生走的更近,从K最近邻算法的角度来看,就是让目标样本与其他正样本距离更近、与其他负样本距离更远,从而使得其近邻中的正样本比例更高,更大概率被判断成正样本。
;条件概率是指事件A在另外一个事件B已经发生条件下的发生概率,记P(A|B);贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。;朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
通俗来说,在街上看到一个黑人,猜这哥们哪里来的,十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高。;“根据以往抓获的情况来看,十个坏学生有九个爱打架。”???——教导主任
说这句话的训导主任很有可能就是通过朴素贝叶斯算法来区分好、坏学生。
“十个坏学生有九个爱打架”就意味着“坏学生”打架的概率P(打架|坏学生)=0.9,假设根据训导处历史记录坏学生占学生总数P(坏学生)=0.1、打架发生的概率是P(打架)=0.09,那么这时如果发生打架事件,就可以通过贝叶斯公式判断出当事学生是“坏学生”的概率P(坏学生|打架)=P(打架|坏学生)×P(坏学生)÷P(打架)=1.0,即该学生100%是“坏学生”。
;某人身高6英尺、体重130磅,脚掌8英寸,请问该人是男是女?;朴素贝叶斯分类常用于文本分类,尤其是对于英文等语言来说,分类效果很好。它常用于垃圾文本过滤、情感预测、推荐系统等。;“上课讲话扣1分,不交作业扣2分,比赛得奖加5分。”??——纪律委员
班上的纪律委员既勤恳又严格,总是在小本本上记录同学们的每一项行为得分。在完成对每一项行为的评分后,纪律委员根据最终加总得到的总分来判断每位同学的表现好坏。
上述的过程就非常类似于逻辑回归的算法
文档评论(0)