文本上的算法.pdf

下载文档 降价啦

47
0
约12.62万字
约 98页
2017-10-07 发布于湖北
举报
版权申诉
保障服务

文本上的算法.pdf

1、本文档共98页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本上的算法

文本上的算法v2.0 路彦雄 (@yanxionglu) yanxionglu@ 目录第一章、你必须知道的一些基本知识1 1.1 概率论1 1.2 信息论3 1.3 贝叶斯法则6 第二章、我们生活在一个寻求最优的世界里 10 2.1 最优化问题 10 2.2 最大似然估计/最大后验估计 14 2.3 梯度下降法 16 第三章、让机器可以像人一样学习 21 3.1 何为机器学习(Machine Learning) 21 3.2 逻辑回归(Logistic Regression) 26 3.3 最大熵模型(Maximum Entropy Model)/条件随机场(CRF) .. 30 3.4 主题模型(Topic Model) 37 3.5 深度学习(Deep Learning) 46 3.6 其他：kNN ，k-means ，决策树，SVM 53 第四章、如何计算的更快 58 4.1 为什么要分布式系统 58 4.2 Hadoop 60 第五章、你要知道的一些术语 65 5.1 tf/df/idf 65 5.2 PageRank 66 5.3 相似度计算 68 第六章、搜索引擎是什么玩意 73 6.1 搜索引擎原理 74 6.2 搜索引擎架构 77 6.3 搜索引擎核心模块 78 6.4 搜索广告 91 序：《文本上的算法》主要分两大部分：第一部分是理论篇，主要介绍机器学习的基础和一些具体算法；第二部分应用篇，主要是一些 NLP 的应用，比如：搜索引擎原理是什么？它为什么要建索引？有什么理论基础吗？之所以抽时间整理出这个文档，是由于以下方面的考虑：1、这些都是我个人曾经学习时的笔记和理解，有手写的，有电子版的，零零散散，所以想整理成一个稍微正式一点的文档，方便查阅；2、这些知识在平常的工作中都会经常用到，整理成这个较正式文档也可以当作读者的一种参考。3、除了必不可少的公式外，尽量以更口语化的方式表达出来，抛弃掉繁琐的证明，提取出算法的核心。由于本人水平有限，难免会有一些错误，希望大家不吝指出。理论篇第一章、你必须知道的一些基本知识要想明白机器学习，一些概率论和信息论的基本知识一定要知道，本章就简单的回顾下这些知识（本章可跳过阅读）。本文如不特殊声明，无下标的变量（例如x ）均为向量，有下标的（例如x ）均为标量。 i 1.1 概率论概率就是描述一个事件发生的可能性。我们生活中绝大多数事件都是不确定的，每一件事情的发生都有一定的概率（确定的事件就是 100%的概率），天气预报说明天有雨，那么它也只是说明天下雨的概 1 率很大。再比如：掷骰子，我把一个骰子掷出去，问某一个面朝上的概率是多少？在骰子没有做任何手脚的情况下，直觉告诉你任何一个面朝上的概率都是1/6，如果你只掷几次很难得出这个结论，但是如果你掷上 1 万次或更多，那么必然可以得出任何一个面朝上的概率都是 1/6 的结论，这就是大数定理：当试验次数（样本）足够多的时候，事件出现的频率无限接近于该事件真实发生的概率。假如我们用概率函数p(x)来表示随机变量x ∈ X 的概率，那么就要满足如下两个特性： 0 ≤ p(x) ≤ 1 ( ) ∑ p x = 1 x∈X 联合概率p(x, y)表示两个事件共同发生的概率。假如这两个事件相