信息检索复习PPT.pptx

下载文档

9
0
约2.8千字
约 182页
2019-12-30 发布于湖南
举报
版权申诉
保障服务

信息检索复习PPT.pptx

1、本文档共182页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

百度定义;;一、搜索和推荐 ★;二、信息检索的本质;;;相关度;;信息检索主要技术;搜索引擎主要技术;;一、爬虫定义;二、爬取过程 Crawling process;三、爬虫必须具有的功能;;;四、爬取框架Basic crawl architecture;4.2 文档指纹FP;4.3 URL 判重;;一、正则表达式;1.3 基于正则表达式的信息提取;;;;二、基于HTML DOM提取内容;2.3、开源HTML解析器;2.4 两种方法比较;四、网站防爬取博弈;如何建立词项词典？;二、词条化 (Tokenization);三、词项归一化 (Normalization);;四、词干还原 (Stemming);Porter算法;五、词形归并(Lemmatization);六、停用词 (Stop Words);消除停用词问题和可能的方法;评测标准;二、分词算法介绍;;;2.2 基于统计的分词方法;主要统计模型;三、基于HMM的中文分词方法3.1 HMM;;;HMM模型可以用来解决三种问题：模型参数学习问题 ObservedSet已知的情况下，估计模型λ的参数，使该模型下观测序列的条件概率P(O|λ)?P(O|λ) 最大求解 TransProbMatrix，EmitRobMatrix，InitStatus 基于EM算法的鲍姆-韦尔奇Baum-Welch算法最复杂预测问题，也称为解码问题。 ObservedSet，TransProbMatrix，EmitRobMatrix，InitStatus已知求解状态值序列StatusSet 。中文分词，语音识别，新词发现，词性标注 viterbi 维特比算法复杂度居中的算法。评估观察序列概率给定模型下观测序列的概率是多少？ StatusSet，TransProbMatrix，EmitRobMatrix，InitStatus 已知求解观察值序列ObservedSet 。 Forward-backward前后向算法最简单的。;3.2 HMM 分词;四、常见开源分词软件;一、信息检索模型（IR model）;;二、布尔检索模型;;bag of words 模型;三、倒排索引;4.3 包含位置信息的倒排记录表;方法1：二元词索引(Biword indexes);方法2：位置信息索引(Positional indexes);五、布尔检索模型的特点;布尔检索模型的缺点;Jaccard 系数;词项频率tf (Term frequency );一种替代原始tf的方法: 对数词频;;;;二值 → 词频 → tf-idf矩阵;向量空间模型;向量相似度计算 ;;;向量空间模型 ;向量空间模型特点;8.1 欧式距离;8.1.2 欧几里得距离Eucledian Distance;8.1.4 切比雪夫距离Chebyshev distance;8.1.5 标准化欧氏距离 (Standardized Euclidean Distance);;8.2 文本相似度量方法;8.2.1 String Based Methods;;;8.2.1.2 Term Based Methods;Tanimoto系数;8.2.2 Corpus Based Methods;8.3 文档重复检测;;8.3.1 shingle算法;;8.3.2 局部敏感哈希 LSH;8.3.2 .1 MinHash;8.3.2 .2 Simhash算法;1. 精确top K 检索及其加速办法;2. 非精确top K检索;链接分析算法;2.1 Pagerank 算法;Pagerank 算法;PageRank算法;2.2 HITS算法;PageRank算法和HITS算法比较;HITS步骤：确定基本集; 三、Direct Hit 算法;四、机器学习排序;方法分为以下3种：单文档方法 PointWise Approach 损失函数评估单个 doc 的预测得分和真实得分之间差异文档对方法 PairWise Approach 是判断任意两个文档组成的文档对D0C1，D0C2是否满足顺序关系文档列表方法 ListWise Approach 搜索结果列表整体作为一个训练实例 ;二、查全率和查准率;1. 查准率和召回率;对多个查询进行查准率评估; F值(F-measure);2.1.1 Precision@K (P@K) R-查准率;;2.1.3 Mean Average Precision (MAP);;2.2 NDCG;1.2.2.2.K-GRAM index;1.3 拼写校正 spelling correction;;1.5 两种提高召回率的方法—