网络信体系结构总结.doc

下载文档 降价啦

6
0
约6.9万字
约 8页
2017-06-14 发布于河南
举报
版权申诉
保障服务

网络信体系结构总结.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网络信体系结构总结

Ｗｅｂ图与Crawling ???Web Graph的性质 ???大小，连接性，结构 Size = Sa/(n0/nb) 200 million nodes 1.5 billion links Some parts unreachable, Others have long paths found Bow-tie Structure ???Power law network (scale-free network) 重尾分布（heavy tail，长尾）是：度大的节点（网页）概率小，但很多，并不能忽略。对数尺度下为一斜线 ???Small world network Diameter of graph is small (log N) as compared to overall size Empirical study of Web-graph reveals small-world property d = 0.35 + 2.06 log (n) ???高性能搜集系统 ???DNS resolve bottleneck 搜索引擎中可以设计一个专用的DNS模块，含有 1、用于地址解析的DNS client（和本模块的DNS缓存服务器打交道）：专门对付多个请求的并发处理，容许一次发出多个解析请求，通过polling来看请求的完成情况协助在多个DNS server之间做负载分配（例如根据掌握的URL进行适当调度） 2、缓存server：大缓存容量，跨DNS系统的刷新保持内容 3、预取client 用不着等待解析的完成 ???Fetch bottleneck 多个并发的抓取 1、用多线程/多进程 2、用异步I/O:带事件处理的非阻塞sockets ???Politeness DoS、robots.txt 在“利用访问的局部性”和“对网站的礼貌性”之间求得平衡 ???Duplicate detection 对URL进行规格化 MD5摘要检测重复的网页信息检索 ???信息检索模型 ???信息检索研究和解决哪一类问题？ Representation Storage Organization Access of information items for people who are interesting in them ???检索模型包括几个方面内容？ D, Q, F, R(qi,dj) D: 文档集的机内表示 Q: 用户需求的机内表示 F: 文档表示、查询表示和它们之间的关系的模型框架 R(qi, dj): query qi 和document dj间的relevance计算函数 ???三种经典检索模型看待检索问题的角度有何异同？ 1、布尔模型每个索引词在一篇文档中只有两种状态：出现或不出现，对应权值为 0或1。查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式 2、向量空间模型文档表示D：文档用词向量表示：词典 ∑={k1,k2,…kt}构成一个线性空间，d=w1,w2,…wt 为此空间内的向量 wi称为权值，表示对应词项ki对于表达文档d的重要程度查询表示与D相似：q=v1,v2,…vt，查询可以是一个文档 Idf=lg(N/ni) 3、经典概率模型信息获取看成是一个过程：用户提交一个查询，系统提供给用户它所认为的相关结果列表；用户考察这个集合后给出一些辅助信息，系统再进一步根据这辅助信息（加上以前的信息）得到一个新的相关结果列表；如此继续。 ???VSM 向量空间模型 ???概率模型文档表示：同向量模型：查询表示：同向量模型： R(qi,dj)的计算：也用Sim(qi,dj)表示，它的思想是用先验值来计算后验值，具体的解释如下：进行独立性假设：词语在文档或查询中的出现是独立的。对于q存在一个相关子集R(R是D的子集) 随机从D中取出一个d，它属于R的概率是多少P（R|d），它不属于R的概率是多少P（ R的补集 |d） Sim(qi,dj)用P（R|d）/ P（ R的补集 |d）来表示，Sim(qi,dj)越大，则认为d与q越相关。其中P（R|d）/ P（ R的补集 |d）的计算利用了先验值，也即利用系统中已知的相关子集中字典中的词出现的概率。逐步求精过程（leehoom）第1步：P(ki|R) = 0.5，P(ki,R的补) = ni/N 其中N = |D|，ni表示D中含有ki的文档个数第2步：根据lisy前面总结的公式计算出前r个文档，记为V,Vi为V中含有ki的文档组成的集合。P(ki|R) 约等于 P(ki|V) 约等于 |Vi|/|V|，P(ki|R的补) 约等于 P(ki,D-V) 约等于 (ni -