- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 网上书店现在有了很强的市场和比较固定的大量的客户。为了促进网上书店的销售量的增长,各网上书店采取了各种方式,给客户提供更多更丰富的书籍,提供更优质服务等方式吸引更多的读者。 * * * * * * * * * * * * * * * * * * * * * * * * * * * * 啤酒与尿布的关联分析 Find all the rules X ? Y with minimum support and confidence support, s, probability that a transaction contains X ? Y confidence, c, conditional probability that a transaction having X also contains Y Let minsup = 50%, minconf = 50% Freq. Pat.: Beer:3, Nuts:3, Diaper:4, Eggs:3, {Beer, Diaper}:3 Association rules: (many more!) Beer ? Diaper (60%, 100%) Diaper ? Beer (60%, 75%) ?Neural Network * * 类神经网络,类似人类神经元结构。 神经元的主要功能是接受刺激和传递信息。神经元通过传入神经接受来自体内外环境变化的刺激信息,并对这些信息加以分析、综合和储存,再经过传出神经把指令传到所支配的器官和组织,产生调节和控制效应。 * * 单纯贝叶斯分类主要是根据贝叶斯定理(Bayesian Theorem),来预测分类的结果。 贝叶斯定理:P(X)、P(H)和P(X|H)可以由给定的数据计算,是先验概率。贝叶斯定理提供了一种由P(X)、P(H)和P(X|H)计算后验概率P(H|X)的方法。贝叶斯定理是: * * ?Na?ve Bayes 分类 实例:办信用卡意愿分析 项目 性别 年龄 学生身分 收入 办卡 1 男 45 否 高 会 2 女 31~45 否 高 会 3 女 20~30 是 低 会 4 男 20 是 低 不会 5 女 20~30 是 中 不会 6 女 20~30 否 中 会 7 女 31~45 否 高 会 8 男 31~45 是 中 不会 9 男 31~45 否 中 会 10 女 20 是 低 会 * * * 解:首先根据训练样本计算各属性相对于不同分类结果的条件概率: P(办卡)=7/10 P(不办卡)=3/10 P(女性|办卡)=5/7 P(女性|不办卡)=1/3 P(年龄=31~45|办卡)=3/7 P(年龄=31~45|不办卡)=1/3 P(学生=否|办卡)=5/7 P(学生=否|不办卡)=0/3 P(收入=中|办卡)=2/7 P(收入=中|不办卡)=2/3 * 判断:X=(女性,年龄介于31~45之间,不具学生身份,收入中等)会不会办理信用卡。 其次,再应用朴素贝氏分类器进行类别预测: 计算 P(办卡)P(女性|办卡)P(年龄31~45|办卡)P(不是学生|办卡)P(收入中|办卡) =15/343≈0.044 P(不办卡)P(女性|不办卡)P(年龄31~45|不办卡)P(不是学生|不办卡)P(收入中等|不办卡)=0 0.0440 * * * * 训练样本中对于(女性,年龄介于31~45之间,不具学生身份,收入中等)的个人,按照朴素贝叶斯分类会将其分到办信用卡一类中。 办卡的概率是(0.044)/(0.044+0)=1 (正规化分类的结果P(会)/(P(会)+P(不会)) ?罗吉斯回归(Logistic Regression) 假设有个科学家想要了解某种毒物对于老鼠死亡率的分析,他做了三次实验,分别使用不同的毒物用量,去计算每一百只老鼠的死亡概率,然后他得到以下的结果: 使用10毫克毒物,死亡率为15% 使用20毫克毒物,死亡率35% 使用30毫克毒物,死亡率55% 从这些数值看起来,毒物的用量与死亡率呈现显著的正比关系,而且我们可以计算出一条非常完美准确的回归线:Y=2X-5(Y为死亡率,X为毒物用量)。 * * 但是,这个方程式包含有一个重大错误。假设我们使用100毫克毒物,根据方程式计算,这些老鼠的死亡率为195%,也就是说每一百只老鼠会死195只,而如果我们完全不放任何毒物时,死亡率为-5%,也就是每一百只老鼠会死负五只。 很显然,这个线性回归模型没有考虑到几个重要的限制,即当我们使用毒物量降低时,死亡率应该是近于零(不会是负值),而当毒物量增加时,死亡率应该是接近于100%。 当需要把概率限制在0~1时,就可以考虑使用
文档评论(0)