- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络信体系结构总结
Web图与Crawling
???Web Graph的性质
???大小,连接性,结构
Size = Sa/(n0/nb)
200 million nodes 1.5 billion links
Some parts unreachable, Others have long paths
found Bow-tie Structure
???Power law network (scale-free network)
重尾分布(heavy tail,长尾)是:度大的节点(网页)概率小,但很多,并不能忽略。
对数尺度下为一斜线
???Small world network
Diameter of graph is small (log N) as compared to overall size
Empirical study of Web-graph reveals small-world property
d = 0.35 + 2.06 log (n)
???高性能搜集系统
???DNS resolve bottleneck
搜索引擎中可以设计一个专用的DNS模块,含有
1、用于地址解析的DNS client(和本模块的DNS缓存服务器打交道):专门对付多个请求的并发处理,容许一次发出多个解析请求,通过polling来看请求的完成情况
协助在多个DNS server之间做负载分配(例如根据掌握的URL进行适当调度)
2、缓存server:
大缓存容量,跨DNS系统的刷新保持内容
3、预取client
用不着等待解析的完成
???Fetch bottleneck
多个并发的抓取
1、用多线程/多进程
2、用异步I/O:带事件处理的非阻塞sockets
???Politeness
DoS、robots.txt
在“利用访问的局部性”和“对网站的礼貌性”之间求得平衡
???Duplicate detection
对URL进行规格化
MD5摘要检测重复的网页
信息检索
???信息检索模型
???信息检索研究和解决哪一类问题?
Representation
Storage
Organization
Access
of information items for people who are interesting in them
???检索模型包括几个方面内容?
D, Q, F, R(qi,dj)
D: 文档集的机内表示
Q: 用户需求的机内表示
F: 文档表示、查询表示和它们之间的关系的模型框架
R(qi, dj): query qi 和document dj间的relevance计算函数
???三种经典检索模型看待检索问题的角度有何异同?
1、布尔模型
每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为 0或1。
查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式
2、向量空间模型
文档表示D:文档用词向量表示:词典 ∑={k1,k2,…kt}构成一个线性空间,d=w1,w2,…wt 为此空间内的向量
wi称为权值,表示对应词项ki对于表达文档d的重要程度
查询表示与D相似:q=v1,v2,…vt,查询可以是一个文档
Idf=lg(N/ni)
3、经典概率模型
信息获取看成是一个过程:用户提交一个查询,系统提供给用户它所认为的相关结果列表;用户考察这个集合后给出一些辅助信息,系统再进一步根据这辅助信息(加上以前的信息)得到一个新的相关结果列表;如此继续。
???VSM 向量空间模型
???概率模型
文档表示:同向量模型:
查询表示:同向量模型:
R(qi,dj)的计算:也用Sim(qi,dj)表示,它的思想是用先验值来计算后验值,具体的解释如下:
进行独立性假设:词语在文档或查询中的出现是独立的。
对于q存在一个相关子集R(R是D的子集)
随机从D中取出一个d,它属于R的概率是多少P(R|d),它不属于R的概率是多少P( R的补集 |d)
Sim(qi,dj)用P(R|d)/ P( R的补集 |d)来表示,Sim(qi,dj)越大,则认为d与q越相关。其中P(R|d)/ P( R的补集 |d)的计算利用了先验值,也即利用系统中已知的相关子集中字典中的词出现的概率。
逐步求精过程(leehoom)
第1步:P(ki|R) = 0.5,P(ki,R的补) = ni/N
其中N = |D|,ni表示D中含有ki的文档个数
第2步:根据lisy前面总结的公式计算出前r个文档,记为V,Vi为V中含有ki的文档组成的
集合。P(ki|R) 约等于 P(ki|V) 约等于 |Vi|/|V|,P(ki|R的补) 约等于 P(ki,D-V) 约
等于 (ni -
您可能关注的文档
最近下载
- 010-数学形态学分析.ppt
- 2023年芜湖市镜湖区市场监督管理局招考工作人员笔试参考题库(共500题)答案详解版.docx VIP
- 励志班会:985博导桂海潮案例,读书可以改变命运主题班会.pptx
- Haier海尔洗衣机EG10014BD809LGU1使用说明书手册参数图解图示pdf电子版下载.pdf VIP
- 《中职高考英语总复习与同步练》(总复习分册)教案 第11课 语法知识——专题9 非谓语动词.docx VIP
- 供应室泛水应急演练.pptx VIP
- 化学品管理中的供应链安全和可追溯性.pptx
- 小学四年级上册心理健康教育教案.doc
- 《中职高考英语总复习与同步练》(总复习分册)教案 第8课 语法知识——专题7 形容词和副词(2).docx VIP
- 【方书】中医土单验方一百首(高清版).pdf
文档评论(0)