网络信体系结构总结.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络信体系结构总结

Web图与Crawling ???Web Graph的性质 ???大小,连接性,结构 Size = Sa/(n0/nb) 200 million nodes 1.5 billion links Some parts unreachable, Others have long paths found Bow-tie Structure ???Power law network (scale-free network) 重尾分布(heavy tail,长尾)是:度大的节点(网页)概率小,但很多,并不能忽略。 对数尺度下为一斜线 ???Small world network Diameter of graph is small (log N) as compared to overall size Empirical study of Web-graph reveals small-world property d = 0.35 + 2.06 log (n) ???高性能搜集系统 ???DNS resolve bottleneck 搜索引擎中可以设计一个专用的DNS模块,含有 1、用于地址解析的DNS client(和本模块的DNS缓存服务器打交道):专门对付多个请求的并发处理,容许一次发出多个解析请求,通过polling来看请求的完成情况 协助在多个DNS server之间做负载分配(例如根据掌握的URL进行适当调度) 2、缓存server: 大缓存容量,跨DNS系统的刷新保持内容 3、预取client 用不着等待解析的完成 ???Fetch bottleneck 多个并发的抓取 1、用多线程/多进程 2、用异步I/O:带事件处理的非阻塞sockets ???Politeness DoS、robots.txt 在“利用访问的局部性”和“对网站的礼貌性”之间求得平衡 ???Duplicate detection 对URL进行规格化 MD5摘要检测重复的网页 信息检索 ???信息检索模型 ???信息检索研究和解决哪一类问题? Representation Storage Organization Access of information items for people who are interesting in them ???检索模型包括几个方面内容? D, Q, F, R(qi,dj) D: 文档集的机内表示 Q: 用户需求的机内表示 F: 文档表示、查询表示和它们之间的关系的模型框架 R(qi, dj): query qi 和document dj间的relevance计算函数 ???三种经典检索模型看待检索问题的角度有何异同? 1、布尔模型 每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为 0或1。 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式 2、向量空间模型 文档表示D:文档用词向量表示:词典 ∑={k1,k2,…kt}构成一个线性空间,d=w1,w2,…wt 为此空间内的向量 wi称为权值,表示对应词项ki对于表达文档d的重要程度 查询表示与D相似:q=v1,v2,…vt,查询可以是一个文档 Idf=lg(N/ni) 3、经典概率模型 信息获取看成是一个过程:用户提交一个查询,系统提供给用户它所认为的相关结果列表;用户考察这个集合后给出一些辅助信息,系统再进一步根据这辅助信息(加上以前的信息)得到一个新的相关结果列表;如此继续。 ???VSM 向量空间模型 ???概率模型 文档表示:同向量模型: 查询表示:同向量模型: R(qi,dj)的计算:也用Sim(qi,dj)表示,它的思想是用先验值来计算后验值,具体的解释如下: 进行独立性假设:词语在文档或查询中的出现是独立的。 对于q存在一个相关子集R(R是D的子集) 随机从D中取出一个d,它属于R的概率是多少P(R|d),它不属于R的概率是多少P( R的补集 |d) Sim(qi,dj)用P(R|d)/ P( R的补集 |d)来表示,Sim(qi,dj)越大,则认为d与q越相关。其中P(R|d)/ P( R的补集 |d)的计算利用了先验值,也即利用系统中已知的相关子集中字典中的词出现的概率。 逐步求精过程(leehoom) 第1步:P(ki|R) = 0.5,P(ki,R的补) = ni/N 其中N = |D|,ni表示D中含有ki的文档个数 第2步:根据lisy前面总结的公式计算出前r个文档,记为V,Vi为V中含有ki的文档组成的 集合。P(ki|R) 约等于 P(ki|V) 约等于 |Vi|/|V|,P(ki|R的补) 约等于 P(ki,D-V) 约 等于 (ni -

文档评论(0)

ybcm963 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档