提要概率论基础回顾.pptVIP

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概述 概率论基础回顾 陈 翀 课程信息 目的 形式 专题讲课+论文阅读+课程练习 评价方式: 文:阅读报告、专题综述的完成质量 武:课程练习完成质量 课程网站 /~cs220 内容提要(1) 数学基础 统计机器学习中常用的概率知识 chp1 信息论初步 chp2 数据预处理和选择技术 中文分词、数据净化方法、维压缩 chp3 潜在语义索引 LSI chp4 特征选择(FS)、特征提取(FE)方法 chp6 统计机器学习初步 chp5 训练和测试集合 可信度 性能评价指标(P,R,距离相似度计算) 平滑方法 内容提要(2) 机器学习方法 贝叶斯分类 chp6 K-NN chp6 支持向量机SVM chp7 贝叶斯网络 chp8 隐马尔可夫模型HMM chp8 最大熵 chp9 决策树* 人工神经网络* 概述 领域概览 相关知识 Refer to IR Lecture of Prof. Chengxiang Zhai TIM Importance of managing text information The most natural way of encoding knowledge 例如对科学文献进行引文索引,描述、制定分类法等 The most common type of information How much textual information do you produce and consume every day? The most basic form of information It can be used to describe other media of information The most useful form of information! Text Management Applications CIKM paper topics SIGIR2008 Examples of Text Management Applications Search Web search engines (Google, Yahoo, …) Library systems … Recommendation News filter Literature/movie recommender Categorization Automatically sorting emails … Mining/Extraction Discovering major complaints from email in customer service Business intelligence Bioinformatics … Many others… Elements of Text Info Management :Technologies Text Management和我们专业的关系 Related Areas Publications/Societies (Incomplete) 基础知识1:概率统计 Prob/Statistics Text Management Probability statistics provide a principled way to quantify the uncertainties associated with natural language 有助于回答如下类型的问题: 假设在一篇新闻文档中观察到“篮球”出现3次,“比赛”出现1次。问:这篇文章会有多大可能是一篇 “体育”类的新闻? (text categorization, information retrieval) 假设一个用户关心体育新闻,他在查询词中用到“篮球”这个词的可能性有多大? (information retrieval) 提要 随机事件、概率 概率的性质 条件概率、乘法公式 全概率公式 贝叶斯公式 随机变量分布 1.随机事件、概率 在一定条件下,可能发生也可能不发生的试验结果称为随机事件,简称事件,一般用大写字母A,B,C,…表示。 两个极端:必然事件、不可能事件 统计特性:如果在相同条件下进行了n 次重复试验,事件A 出现了v 次,那么事件A 在n 次实验中出现的频率为是n/v。当n 无限增大时呈现稳定性,可以用事件的频率近似地表示该事件的概率,即 事件之间的关系和运算 包含、等价、积事件(表示A和B同时发生的事件)、和(A发生或B发生)、差(A发生而B不发生)、互斥(A与B不可能同时发生)、对立(AB为互斥事件,且在每次试验中不是A出现就是B出现) 2.概率的性质 3.条件概率、乘法公式 条件概率:在事件B 发生的条件下,事件A 发生的概率称为事件A 在事件B

文档评论(0)

aiwendang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档