- 1、本文档共182页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
百度定义;;一、搜索和推荐 ★;二、信息检索的本质;;;相关度;;信息检索主要技术;搜索引擎主要技术;;一 、 爬虫定义;二、爬取过程 Crawling process;三、 爬虫必须具有的功能;;;四、爬取框架Basic crawl architecture;4.2 文档指纹FP;4.3 URL 判重;;一、 正则表达式;1.3 基于正则表达式的信息提取;;;;二、基于HTML DOM提取内容;2.3、开源HTML解析器;2.4 两种方法比较;四、网站防爬取博弈;如何建立词项词典?;二、词条化 (Tokenization);三、 词项归一化 (Normalization);;四、 词干还原 (Stemming);Porter算法;五、 词形归并(Lemmatization);六、 停用词 (Stop Words);消除停用词问题和可能的方法;评测标准;二、分词算法介绍;;;2.2 基于统计的分词方法;主要统计模型;三、基于HMM的中文分词方法3.1 HMM;;;HMM模型可以用来解决三种问题:
模型参数学习问题
ObservedSet已知的情况下,
估计模型λ的参数,使该模型下观测序列的条件概率P(O|λ)?P(O|λ) 最大
求解 TransProbMatrix,EmitRobMatrix,InitStatus
基于EM算法的鲍姆-韦尔奇Baum-Welch算法
最复杂
预测问题,也称为解码问题。
ObservedSet,TransProbMatrix,EmitRobMatrix,InitStatus已知
求解状态值序列StatusSet 。
中文分词,语音识别,新词发现, 词性标注
viterbi 维特比算法
复杂度居中的算法。
评估观察序列概率
给定模型下观测序列的概率是多少?
StatusSet,TransProbMatrix,EmitRobMatrix,InitStatus 已知
求解观察值序列ObservedSet 。
Forward-backward前后向算法
最简单的。;3.2 HMM 分词;四、常见开源分词软件;一、信息检索模型(IR model);;二、布尔检索模型;;bag of words 模型;三、倒排索引;4.3 包含位置信息的倒排记录表;方法1:二元词索引(Biword indexes);方法2:位置信息索引(Positional indexes);五、布尔检索模型的特点;布尔检索模型的缺点;Jaccard 系数;词项频率tf (Term frequency );一种替代原始tf的方法: 对数词频;;;;二值 → 词频 → tf-idf矩阵;向量空间模型;向量相似度计算 ;;;向量空间模型 ;向量空间模型特点;8.1 欧式距离;8.1.2 欧几里得距离Eucledian Distance;8.1.4 切比雪夫距离Chebyshev distance;8.1.5 标准化欧氏距离 (Standardized Euclidean Distance);;8.2 文本相似度量方法;8.2.1 String Based Methods;;;8.2.1.2 Term Based Methods;Tanimoto系数;8.2.2 Corpus Based Methods;8.3 文档重复检测;;8.3.1 shingle算法;;8.3.2 局部敏感哈希 LSH;8.3.2 .1 MinHash;8.3.2 .2 Simhash算法;1. 精确top K 检索及其加速办法;2. 非精确top K检索;链接分析算法;2.1 Pagerank 算法;Pagerank 算法;PageRank算法;2.2 HITS算法;PageRank算法和HITS算法比较;HITS步骤:确定基本集; 三、Direct Hit 算法;四、机器学习排序;方法分为以下3种:
单文档方法
PointWise Approach
损失函数评估单个 doc 的预测得分和真实得分之间差异
文档对方法
PairWise Approach
是判断任意两个文档组成的文档对D0C1,D0C2是否满足顺序关系
文档列表方法
ListWise Approach
搜索结果列表整体作为一个训练实例
;二、 查全率和查准率;1. 查准率和召回率;对多个查询进行查准率评估; F值(F-measure);2.1.1 Precision@K (P@K) R-查准率;;2.1.3 Mean Average Precision (MAP);;2.2 NDCG;1.2.2.2.K-GRAM index;1.3 拼写校正 spelling correction;;1.5 两种提高召回率的方法—
文档评论(0)