搜集中国的Blog-PKU-北京大学.DOCVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京大学 网络实验室硕士学位论文 PAGE 硕士研究生学位论文 题目:Blog搜集技术和百万Blog数据分析 姓 名:包勇军 学 号院 系:信息科学技术学院 专 业:计算机系统结构 研究方向:计算机网络与分布式系统 导 师:李晓明 教授 2007 年 5 月 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 摘要 随着blog在全世界的流行,面向blog的Internet服务系统也越来越多。其中最常见的是blog搜索服务,也就是面向blog的垂直搜索引擎。尽管对blog的研究方兴未艾,但是很少有文献完整全面的讨论blog的搜集系统的设计,特别是在垂直搜索引擎的大框架下。 本文的工作就是分析和设计blog垂直搜索引擎的搜集系统。主要贡献包括下面几点。 设计了blog垂直搜索引擎的系统架构。本文针对垂直搜索引擎和通用搜索引擎的区别,对blog垂直搜索引擎的搜集、索引和服务子系统作了分析,并给出了系统架构图。 分析了blog垂直搜索引擎搜集系统设计要点。本文给出典型搜集系统的架构,讨论搜集系统普遍遇到的问题。然后具体针对blog垂直搜索引擎,分析它的搜集系统需要考虑的一些特殊问题,包括搜集策略的问题,JavaScript的问题,虚拟主机的问题等等。 详细讨论了blog搜索引擎搜集系统的设计和工作流程。我们设计了搜集系统的系统架构;提出用focused搜集策略搜集blog站点;利用站点的URL模式来识别blog;针对blog站点的特点,设计高效的DNS解析系统;分析blog搜集中的友好性设计面临的问题,并给出详细的frontier模块的设计;分析post搜集的两种方案,并给出post搜集的系统架构。 对搜集到的百万blog数据作了简单的分析。我们讨论了blog站点中存在的链接局部性、blog分布不均衡等4点特性,并评估它们对搜集系统的影响,尤其针对AJAX带来的影响,给出了blog搜集的一些具体的改进方案。 关键词:blog,blog搜索引擎,垂直搜索引擎,搜集系统,爬虫 The Analysis of a Blog Collecting System with a Collection of Millions of Blog Sites Bao Yongjun (Computer Architecture) Directed by LI Xiaoming Abstract With the blog in the world pandemic, the blog-oriented Internet service system is also increasing. One of the most common is the blog search service which also known as Blog Oriented Vertical Search Engine. Despite the researches in blogs are popular and hot, there is no full and complete discussion about the design of blog collecting system, particularly under the framework of vertical search engine. Our work is to analyze and design blog vertical search engine’s collecting system. Major contributions include the following points. Design the architecture of the blog vertical search engine. Based on difference of vertical search engines and general search engines, we analyze the collecting system, index system and the service system of blog vertical search engine, at last we give the system architecture chart. Analyze the design key points of the collecting system of the blog vertical

文档评论(0)

jinchenl + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档