文本上的算法.pdf

  1. 1、本文档共98页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本上的算法

文本上的算法v2.0 路彦雄 (@yanxionglu) yanxionglu@ 目录 第一章、你必须知道的一些基本知识1 1.1 概率论1 1.2 信息论3 1.3 贝叶斯法则6 第二章、我们生活在一个寻求最优的世界里 10 2.1 最优化问题 10 2.2 最大似然估计/最大后验估计 14 2.3 梯度下降法 16 第三章、让机器可以像人一样学习 21 3.1 何为机器学习(Machine Learning) 21 3.2 逻辑回归(Logistic Regression) 26 3.3 最大熵模型(Maximum Entropy Model)/条件随机场(CRF) .. 30 3.4 主题模型(Topic Model) 37 3.5 深度学习(Deep Learning) 46 3.6 其他:kNN ,k-means ,决策树,SVM 53 第四章、如何计算的更快 58 4.1 为什么要分布式系统 58 4.2 Hadoop 60 第五章、你要知道的一些术语 65 5.1 tf/df/idf 65 5.2 PageRank 66 5.3 相似度计算 68 第六章、搜索引擎是什么玩意 73 6.1 搜索引擎原理 74 6.2 搜索引擎架构 77 6.3 搜索引擎核心模块 78 6.4 搜索广告 91 序:《文本上的算法》主要分两大部分:第一部分是理论篇,主要介绍 机器学习的基础和一些具体算法;第二部分应用篇,主要是一些 NLP 的 应用,比如:搜索引擎原理是什么?它为什么要建索引?有什么理论基 础吗?之所以抽时间整理出这个文档,是由于以下方面的考虑:1、这些 都是我个人曾经学习时的笔记和理解,有手写的,有电子版的,零零散 散,所以想整理成一个稍微正式一点的文档,方便查阅;2、这些知识在 平常的工作中都会经常用到,整理成这个较正式文档也可以当作读者的 一种参考。3、除了必不可少的公式外,尽量以更口语化的方式表达出来, 抛弃掉繁琐的证明,提取出算法的核心。由于本人水平有限,难免会有 一些错误,希望大家不吝指出。 理论篇 第一章、你必须知道的一些基本知识 要想明白机器学习,一些概率论和信息论的基本知识一定要知道,本 章就简单的回顾下这些知识(本章可跳过阅读)。本文如不特殊声明, 无下标的变量(例如x )均为向量,有下标的(例如x )均为标量。 i 1.1 概率论 概率就是描述一个事件发生的可能性。我们生活中绝大多数事件 都是不确定的,每一件事情的发生都有一定的概率 (确定的事件就是 100%的概率),天气预报说明天有雨,那么它也只是说明天下雨的概 1 率很大。再比如:掷骰子,我把一个骰子掷出去,问某一个面朝上的 概率是多少?在骰子没有做任何手脚的情况下,直觉告诉你任何一个 面朝上的概率都是1/6,如果你只掷几次很难得出这个结论,但是如果 你掷上 1 万次或更多,那么必然可以得出任何一个面朝上的概率都是 1/6 的结论,这就是大数定理:当试验次数 (样本)足够多的时候,事 件出现的频率无限接近于该事件真实发生的概率。 假如我们用概率函数p(x)来表示随机变量x ∈ X 的概率,那么就要 满足如下两个特性: 0 ≤ p(x) ≤ 1 ( ) ∑ p x = 1 x∈X 联合概率p(x, y)表示两个事件共同发生的概率。假如这两个事件相

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档