Web信息处理与应用复习笔记-GitHub.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息处理与应用复习笔记-GitHub

Web 信息处理与应用 复习笔记 © 2017-1 熊家靖 P PART 1:Web Search 一、Introduction 1、web 搜索的挑战: 数据规模大、分布散、不稳定、质量差、无结构、异构、价值低 2、信息检索: 给定查询和信息库,找到相关的文档 3、IR 与DB 的区别: DB 数据结构化、有明确语义,查询结构化、匹配要精确、次序不重要 IR 数据半结构化、无明确语义,查询为任意内容、无需精确匹配、次序很重要 4、IR 的任务: 基于用户查询的搜索、信息过滤、分类、问答 5、IR 的基础性问题: 相关性计算、检索模型、评价、信息需求、检索性能 二、Web Crawler 1、网络爬虫的概念: 从一个种子站点集合开始,从 web 中寻找并且下载网页,获取排序需要的相关信 息,并且剔除低质量的网页 2、网络爬虫基本过程: 种子装入桶中、每次从桶中取出一个网页、提取出网页所有url 放入桶中、重复 3、网络爬虫的主要需求: 快、可扩展性、友好性、健壮、持续搜集、时新性 4、网络爬虫的常用策略: 用栈深度优先、用队列广度优先 5、网络爬虫涉及的协议: HTTP/HTML、DNS/URL、Robots Exclusion (排斥协议)、Sitemp (允许协议) 6、URL 规范化: 协议://主机名[:端口]/路径/[ :参数][?查询]#Fragment 7、分布式爬虫的概念: 如何有效地把N 个网站的搜集任务分配到M 个机器上去使得分配比较均匀 8、一致性Hash 的概念: 将网页和机器都映射到环路Hash 空间,每个机器负责自身位置与后继的网页搜集 三、Text Processing 1、文本处理的概念: 将原始文档转换成词项集以方便索引 2、字符编码的概念: ASCII :美国信息交换标准代码 Unicode:统一码,满足跨语言、跨平台的需求 UTF-8:针对Unicode 的可变长度字符编码 3、分词中的概念: - 1 - 分词:将文档的字符串序列变成词序列 语素:最小的语音语义结合体,是最小的语言单位 词:代表一定的意义,具有固定的语音形式,可以独立运用的最小的语言单位 交叉歧义:网球/场/ 网/球场/ 组合歧义:我/个人/ 三/个/人/ 未登录词:未包括在分词词表中但必须切分出来的词,包括各类专名、术语、缩略语等 停用词:在文档中频繁出现或与语料库特性有关的词 4、中文分词的挑战: 汉语是字的集合而不是词的集合 汉字存在着不同的组词方式 汉语虚词众多,大多数汉字在不同的词语中可能为关键字,也可能为停用词 分词歧义 新词的频繁出现 5、常用的分词方法: 机械分词: 正向最大匹配分词FMM 反向最大匹配分词BMM / RMM 双向最大匹配分词BM: FMM + RMM 最少切分分词:图中最短路径 ASM( d, a, m ) d 为匹配方向,a 为失败后增/减串长,m 为最大/小匹配 理解分词: 分词时进行句法、语义分析,从而减少歧义 统计分词: 一元文法模型 即最大概率分词 二元文法模型 每个词的概率为前一个词出现后的条件概率 N 元文法模型 每个词的概率为前N 个词出现后的条件

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档