- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
RSS、信息聚合、搜索引擎、数据采集
????
摘 要随着网络技术的巨大发展以及互联网使用者的不断增加,互联网己经成为主流的信息发布媒介之一。web2.0的到来,给互联网带来了新的机遇和挑战。如何快速、准确地在网络中找到所需信息,并且以更加人性化的方式为用户提供服务成为网络技术研究的热点。信息聚合和信息挖掘为解决互联网信息过载问题提供了技术支持。RSS(Really Simple Syndication)技术是近几年发展起来的在互联网上被广泛采用的内容包装和投递协议,是在线内容共享的简易方式,各种类别的信息通过RSS发送,被广泛应用于博客、新闻信息、个性化搜索、电子商务等各个领域。本文以一个实际的RSS信息聚合服务项目为背景,通过对RSS协议和Web信息采集系统的研究,阐述了一种基于RSS的并行的信息采集系统,并着重探讨该系统与搜索引擎中Web信息采集系统的不同之处,及其基于自身特点的设计和实现策略。在两年的使用过程中,系统能够正确处理RSS的信息,在并行的情况下,可以对数百万级的RSS Feeds进行及时和有效的采集。具体而言,主要的研究工作如下:首先,研究了RSS协议规范和报文结构,以及搜索引擎中Web信息采集系统的架构,特点和难点;其次,研究了基于RSS的信息采集系统的系统特点和设计目标,并进行了系统总体设计;再次,研究了RSS Feeds的地址识别、编码识别和内容抽取,并着重研究了RSS的文章更新算法和文章去重算法等;最后,对系统进行测试和评估,分析系统的性能和瓶颈。
关键词:RSS、信息聚合、搜索引擎、数据采集?Research and Application of Web Crawler System Based on RSSAbstractWith the tremendous development of network technology and the ever-increasing Internet users, the Internet has become one of the mainstream information by the media release. The arrival of web2.0 has brought new opportunities and challenges to the Internet. How to find the information required quickly and accurately in the network, and provide services for users in a more humane manner becomes the focus of research of Internet.Information polymerization and Information Mining provides a way to solve the problem of information overload. RSS technology is developed in recent years on the Internet, which is widely used in packaging and content delivery. It is a simple way to realize online content sharing. Various types of information are transmitted under RSS. It is widely used in weblogs, news information, personalized search, e-commerce and other fields.The present text, on the basis of RSS information aggregation service projects, discloses a parallel web crawler system based on RSS and mainly focused on the difference between this system and the crawler system of Search Engine as well as the design and implementation strategy based on its own characteristics. All of those are based on the research of RSS and web crawler system.
您可能关注的文档
- p2sma200a,tvs瞬变抑制二极管.doc
- ospf路由协议技术.ppt
- p004物品、设备一次性合同采购程序.doc
- p11-pdm-材料设备选型定板管理流程.doc
- p3-刚体与变形体.ppt
- p78-对瞬变体系的进一步分析.ppt
- p126-内力影响线与内力图的区别.pptx
- oy-4000型(sf6泄漏在线监测)定量激光报警系统使用说.doc
- packet tracer 5.0是一款非常不错的cisco.doc
- p114-位移法的计算(1).ppt
- 中国国家标准 GB/T 15445.3-2025粒度分析结果的表述 第3部分:试验曲线的参考模型拟合.pdf
- 《GB/T 15445.3-2025粒度分析结果的表述 第3部分:试验曲线的参考模型拟合》.pdf
- 中国国家标准 GB/Z 41305.3-2025环境条件 电子设备振动和冲击 第3部分:利用轨道车辆运输.pdf
- 《GB/Z 41305.3-2025环境条件 电子设备振动和冲击 第3部分:利用轨道车辆运输》.pdf
- GB/Z 41305.3-2025环境条件 电子设备振动和冲击 第3部分:利用轨道车辆运输.pdf
- 中国国家标准 GB/T 46713.4-2025轨道交通 机车车辆 辅助供电系统蓄电池 第4部分:镍氢蓄电池.pdf
- 《GB/T 46713.4-2025轨道交通 机车车辆 辅助供电系统蓄电池 第4部分:镍氢蓄电池》.pdf
- GB/T 46713.4-2025轨道交通 机车车辆 辅助供电系统蓄电池 第4部分:镍氢蓄电池.pdf
- 中国国家标准 GB/Z 106-2025质量管理体系 组织变革管理 过程.pdf
- GB/Z 106-2025质量管理体系 组织变革管理 过程.pdf
原创力文档


文档评论(0)