- 2
- 0
- 约8.22千字
- 约 31页
- 2018-09-02 发布于湖北
- 举报
概述 概率论基础回顾 陈 翀 课程信息 目的 形式 专题讲课+论文阅读+课程练习 评价方式: 文:阅读报告、专题综述的完成质量 武:课程练习完成质量 课程网站 /~cs220 内容提要(1) 数学基础 统计机器学习中常用的概率知识 chp1 信息论初步 chp2 数据预处理和选择技术 中文分词、数据净化方法、维压缩 chp3 潜在语义索引 LSI chp4 特征选择(FS)、特征提取(FE)方法 chp6 统计机器学习初步 chp5 训练和测试集合 可信度 性能评价指标(P,R,距离相似度计算) 平滑方法 内容提要(2) 机器学习方法 贝叶斯分类 chp6 K-NN chp6 支持向量机SVM chp7 贝叶斯网络 chp8 隐马尔可夫模型HMM chp8 最大熵 chp9 决策树* 人工神经网络* 概述 领域概览 相关知识Refer to IR Lecture of Prof. Chengxiang Zhai TIM Importance of managing text information The most natural way of encoding knowledge 例如对科学文献进行引文索引,描述、制定分类法等 The most common type of information How much textual information do you produce and consume every day? The most basic form of information It can be used to describe other media of information The most useful form of information! Text Management Applications CIKM paper topics SIGIR2008 Examples of Text Management Applications Search Web search engines (Google, Yahoo, …) Library systems … Recommendation News filter Literature/movie recommender Categorization Automatically sorting emails … Mining/Extraction Discovering major complaints from email in customer service Business intelligence Bioinformatics … Many others… Elements of Text Info Management :Technologies Text Management和我们专业的关系 Related Areas Publications/Societies (Incomplete) 基础知识1:概率统计 Prob/Statistics Text Management Probability statistics provide a principled way to quantify the uncertainties associated with natural language 有助于回答如下类型的问题: 假设在一篇新闻文档中观察到“篮球”出现3次,“比赛”出现1次。问:这篇文章会有多大可能是一篇 “体育”类的新闻? (text categorization, information retrieval) 假设一个用户关心体育新闻,他在查询词中用到“篮球”这个词的可能性有多大? (information retrieval) 提要 随机事件、概率 概率的性质 条件概率、乘法公式 全概率公式 贝叶斯公式 随机变量分布 1.随机事件、概率 在一定条件下,可能发生也可能不发生的试验结果称为随机事件,简称事件,一般用大写字母A,B,C,…表示。 两个极端:必然事件、不可能事件 统计特性:如果在相同条件下进行了n 次重复试验,事件A 出现了v 次,那么事件A 在n 次实验中出现的频率为是n/v。当n 无限增大时呈现稳定性,可以用事件的频率近似地表示该事件的概率,即 事件之间的关系和运算 包含、等价、积事件(表示A和B同时发生的事件)、和(A发生或B发生)、差(A发生而B不发生)、互斥(A与B不可能同时发生)、对立(AB为互斥事件,且在每次试验中不是A出现就是B出现) 2.概率的性质 3.条件概率、乘法公式 条件概率:在事件B 发生的条件下,事件A 发生的概率称为事件A 在事件B
原创力文档

文档评论(0)