- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息处理与应用复习笔记-GitHub
Web 信息处理与应用 复习笔记
© 2017-1 熊家靖 P
PART 1:Web Search
一、Introduction
1、web 搜索的挑战:
数据规模大、分布散、不稳定、质量差、无结构、异构、价值低
2、信息检索:
给定查询和信息库,找到相关的文档
3、IR 与DB 的区别:
DB 数据结构化、有明确语义,查询结构化、匹配要精确、次序不重要
IR 数据半结构化、无明确语义,查询为任意内容、无需精确匹配、次序很重要
4、IR 的任务:
基于用户查询的搜索、信息过滤、分类、问答
5、IR 的基础性问题:
相关性计算、检索模型、评价、信息需求、检索性能
二、Web Crawler
1、网络爬虫的概念:
从一个种子站点集合开始,从 web 中寻找并且下载网页,获取排序需要的相关信
息,并且剔除低质量的网页
2、网络爬虫基本过程:
种子装入桶中、每次从桶中取出一个网页、提取出网页所有url 放入桶中、重复
3、网络爬虫的主要需求:
快、可扩展性、友好性、健壮、持续搜集、时新性
4、网络爬虫的常用策略:
用栈深度优先、用队列广度优先
5、网络爬虫涉及的协议:
HTTP/HTML、DNS/URL、Robots Exclusion (排斥协议)、Sitemp (允许协议)
6、URL 规范化:
协议://主机名[:端口]/路径/[ :参数][?查询]#Fragment
7、分布式爬虫的概念:
如何有效地把N 个网站的搜集任务分配到M 个机器上去使得分配比较均匀
8、一致性Hash 的概念:
将网页和机器都映射到环路Hash 空间,每个机器负责自身位置与后继的网页搜集
三、Text Processing
1、文本处理的概念:
将原始文档转换成词项集以方便索引
2、字符编码的概念:
ASCII :美国信息交换标准代码
Unicode:统一码,满足跨语言、跨平台的需求
UTF-8:针对Unicode 的可变长度字符编码
3、分词中的概念:
- 1 -
分词:将文档的字符串序列变成词序列
语素:最小的语音语义结合体,是最小的语言单位
词:代表一定的意义,具有固定的语音形式,可以独立运用的最小的语言单位
交叉歧义:网球/场/ 网/球场/
组合歧义:我/个人/ 三/个/人/
未登录词:未包括在分词词表中但必须切分出来的词,包括各类专名、术语、缩略语等
停用词:在文档中频繁出现或与语料库特性有关的词
4、中文分词的挑战:
汉语是字的集合而不是词的集合
汉字存在着不同的组词方式
汉语虚词众多,大多数汉字在不同的词语中可能为关键字,也可能为停用词
分词歧义
新词的频繁出现
5、常用的分词方法:
机械分词: 正向最大匹配分词FMM
反向最大匹配分词BMM / RMM
双向最大匹配分词BM: FMM + RMM
最少切分分词:图中最短路径
ASM( d, a, m ) d 为匹配方向,a 为失败后增/减串长,m 为最大/小匹配
理解分词: 分词时进行句法、语义分析,从而减少歧义
统计分词: 一元文法模型 即最大概率分词
二元文法模型 每个词的概率为前一个词出现后的条件概率
N 元文法模型 每个词的概率为前N 个词出现后的条件
您可能关注的文档
- CQC9476222015800900MHz射频识别标签性能评价实施细则pdf.PDF
- CS306程序员面试精讲动态规划专题突破-AmazonAWS.PDF
- COM组件技术在-易迪拓培训.PDF
- C自动编程控制系统对列表轮廓的圆弧拟合方法.PDF
- DB33T5462005无公害翘嘴红鲌第2部分.PDF
- DAQ获取到的原始数据需要在现场的数据缓冲区中保留一定时间.PPT
- clinicalmanifestation-signs重症急性胰腺炎-长治医学院.PPT
- CulturalIndustrialHeritage产业文化资产-朝阳科技大学.PDF
- Delphi中的DLL封装和调用对象技术-Read.PDF
- DellEMC引导优化的服务器存储-S1用户.PDF
- WorkingOutLoudCircleGuideWOL第九周挖掘更多的独创性.PDF
- XXX系校外实习实训工作计划-泗职教中心.DOC
- WorkingFolder26管理者连接工作流程篇-FujiXeroxOnline.PDF
- XenGT一款工作在英特尔处理器显卡上的高性能图形虚拟化解决方案.PDF
- Ⅲ大尺寸油封作业流程铁壳皮膜处理后添加接着剂真空油压加-嵩赞.PPT
- 一个独特的票务分发平台快速增长的亚洲人可以轻松访问隐藏但丰富.PDF
- 一位学前特教巡回教师运用社会故事提升学龄前自闭症幼儿专注行为.PDF
- 一光纤通信发展简史.PPT
- 一封父亲给孩子的信.PPT
- 一氧化碳中毒的急救流程及处理.PPT
原创力文档


文档评论(0)