《Web信息处理与应用》复习提纲PART1WebSearch.PDFVIP

下载本文档

11
0
约2.66千字
约 4页
2018-10-12 发布于天津
举报
版权申诉

《Web信息处理与应用》复习提纲PART1WebSearch.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《Web信息处理与应用》复习提纲PART1WebSearch.PDF

《Web 信息处理与应用》复习提纲 PART 1：Web Search 一． Introduction 1. Web 搜索的概念与挑战 2. 信息检索（IR）的概念、与Web 搜索之间的关系 3. IR 与DB 之间的区别 4. IR 的任务与基础性问题二． Web Crawler 1. 网络爬虫的概念和基本过程 2. 网络爬虫的主要需求 3. 网络爬虫的常用策略 4. 网络爬虫涉及的协议 5. 分布式爬虫与一致性 Hash 的概念三． Text Processing 1. 文本处理的概念 2. 字符编码：ASCII 、Unicode、UTF‐8 3. 分词、分词歧义、未登录词、停用词等概念 4. 中文分词的挑战 5. 常用的分词方法 6. 词根化（Stemming ）和编辑距离的概念四． Indexing 1．布尔检索、关联矩阵的概念 2 ．倒排索引：概念、结构、构建算法、存储等五． Queries 1. 查询表达的难点 2. 相关性反馈：概念、基本过程 3. 相关性反馈的分类及其各自的概念与特点 4. Ricchio 算法 5. 查询扩展的概念 6. 查询扩展的几种方法六． Ranking 1. Ranking 的难点 2. 信息检索模型的概念、分类 3. Jaccard 系数 4. tf 、df、tf‐idf 的概念与计算 5. 向量空间模型 6. 余弦相似度的定义 7. 概率模型的概念 8. PageRank 9. HITS 七． Evaluation 1. 信息检索评价概述 2. 信息检索评价指标的分类 3. Precision、Recall、F‐measure 的定义 4. P@N 、R@Precision、AP 的定义 5. MAP、MRR 6. NDCG PART 2：Web Information Extraction 一． Named Entity Recognition 1. 信息抽取（IE）的概念以及与IR 的关系 2. MUC‐7 定义的信息抽取任务 3. 信息抽取的内容 4. NER 的概念与难点 5. MUC‐7 中定义的NER 内容 6. NER 的性能评价指标 7. NER 的常用方法二． Relation Extraction 1. 关系抽取的概念和意义 2. 关系的表示方法 3. 关系抽取的常用方法 PART 3：Web Data Mining 一．概述(Introduction) 1. 网络挖掘的概念，包含哪些方面的内容，分别有哪些重要应用？二．网络内容挖掘(Web Content Mining) 数据(Data) 1. 概念：数据对象(Objects)，属性(Attributes) ，维度(Dimensions)，特征(features) 2. 高维诅咒(Curse of dimensionality)现象。 3. 对于数据的预处理有哪些方法？其中需要掌握采样(Sampling) ，特征选择 (Feature selection)及降维(Dimensionality reduction)的基本原理。分类(Classification) 4. 监督学习(Supervised learning)与无监督学习(Unsupervised learning)的关系与区别。 5. 分类(Classification)的基本原理。 6. 数据的向量表示(Vector space representation) 7. 熟练掌握k 近邻算法，包括影响算法性能的要素——近邻个数及距离（相似度）度量。 8. 熟练掌握Logistic regression 分类方法。 9. 如何评价分类效果？理解训练错误率，测试错误率以及泛化错误率的区别。聚类(Clustering) 10. 聚类(Clustering)的基本原理及准则。 11. 层次式聚类算法流程，两个类