- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
放置层次树节点-清华大学
利用层次模型实现P2P网络的全文检索*
周晋 李衍达
(清华大学 自动化系,北京 100084)
摘 要:本文的研究对象是P2P搜索问题。已有本文层次树的节点分置
ZHOU Jin, LI Yanda
(Department of Automation, Tsinghua University, Beijing 100084, China)
Abstract: Ideal content-based routing algorithm should not only provide IR algorithms’ effectiveness, but guarantee routing’s scalability. However, former works did not really achieve both aims. In this paper, we present a novel method named Distributed Hierarchical Clustering to address it. Firstly, files in vector-format are placed to appropriate position in Hierarchical Clustering Tree (HC-Tree). In physical network, HC-Tree nodes may be placed on different servents, and clustering is established by servents communicating. Working in a top-down fashion, a query will be sent from root to relevant sub-nodes. When it reaches leaf nodes which are responsible for files, routing is terminated. The physical addresses of those relevant files will be returned to original node. Results from theoretical analysis and simulations show that, under preservation of a stable recall, DHC is incrementally scalable, with lookup costs scaling logarithmically with the number of servents. In conclusion, DHC is an efficient p2p routing algorithm.
Key words: peer-to-peer routing, scalability, distributed, hierarchical clustering, content-based
1简介
近来,Peer-to-peer系统(简称P2P系统)在文件共享和信息搜索等方面得到了越来越多的应用,Morpheus[1]的系统报告指出:截止2001年10月26日,用户数量超过470,000位,共享文件总量约360TeraBytes。P2P系统是由一组地位相等的节点构成,节点间可以直接通讯,无需第三方参与。与C/S结构相比,P2P结构可容纳大规模数量的节点,此外,它还具有网络负载平衡、实时性搜索、容错性强等特点。
P2P搜索是决定系统性能的首要因素,主要包括两种方式:集中式搜索和分布式搜索,分别对应集中式索引和分布式索引。相比集中式,分布式搜索具有实时搜索、分布处理和平衡网络负载等优势,虽然目前存在搜索时间长、通讯量大等弊端,但能够利用网络整体资源的固有特点仍使它成为了极具潜力的研究问题之一。
分布式算法需要满足的一个关键条件是:保证搜索的可扩展性(Scalability)。可扩展性算法应具备的基本条件有(设N为系统节点总数):
时间复杂度与N保持非指数关系。搜索时间应一直保持在可接受范围内,分布式算法的搜索时间与搜索深度成正比;
搜索质量不能明显降低;
节点索引的存储容量应避免超过用户限定范围。
目前被广泛使用的两个系统Gnutella[2]、Freenet[3]分别采用了宽度优先(BFS)和深度优先(DFS)搜索方式,两种搜索算法虽然鲁棒性强,但运行效率很低,前者的扩散搜索导致消息呈指数规模增加,后者的回溯搜索导致等待时间过长。Tapestry[4] 、Pastry[5]、CAN[6]和Chord[7]通过严格控制网络拓扑和文件存放位置,
您可能关注的文档
最近下载
- 健康教育对妊娠期糖尿病患者的影响.doc VIP
- 软硬件更新升级操作规范.docx VIP
- (完整版)电气图形符号大全,推荐文档 .pdf VIP
- 【2025秋】人教版二年级数学上册教学计划(含进度表).docx VIP
- 八年级语文上册《中国人首次进入自己的空间站》教学详案.docx VIP
- 反渗透系统操作维护技术手册1.pdf VIP
- 智慧物流园区可视化综合管控平台建设方案.pptx VIP
- 4.3 去括号(课件)青岛版(2024)数学七年级上册.pptx VIP
- DB3502Z 5009-2018-海绵城市建设技术标准图集.pdf VIP
- 上海市闵行区2024年六年级《语文》上册期中试题与参考答案.docx VIP
文档评论(0)