读书笔记范例.doc.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
读书笔记范例.doc

读书笔记 姓名:xiaoming 学号:130601 班级:15级电子商务1541班 前言:我通过查阅图书馆书籍,搜索图书馆数据库资料,查阅有关期刊和查找网页上相关的资料四种方式,为我的论文——《基于分布式系统的网络爬虫设计与研究》寻找相关的信息资料,并从2016年4月1日——2016年4月24日根据所收集的资料完成的读书笔记,以下即为我此次的读书笔记。 《主题网络爬虫的研究与设计》之读书笔记 索引:南京理工大学, 控制理论与控制工程, 2008, 硕士:《主题网络爬虫的研究与设计》 原文的摘要:随着网络资源的急剧增长,在庞大的网络上,快、准、全地找到相关信息,变得越来越困难。此时,搜索引擎应运而生。搜索引擎是人们从网上查找信息最方便快捷的方式,也因此超过E-mail等常见web服务,成为用户使用量最多的服务。通用搜素引擎,面向所有的web信息检索者,由于庞大的网络信息规模和高速响应要求,使其检索结果的相关性不尽人意。主题搜索引擎,是为进一步提高相关性而发展起来的新一代搜索引擎。本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了搜索引擎的发展概况和网络爬虫研究现状;然后分析了集中式主题网络爬虫的体系结构,将其分成5个组成部分:数据存储、下载模块、网页预处理、网页分类和链接分析,并阐述了各部分的功能。本文的具体工作如下:(1)在搜索策略中,结合内容分析和链接分析,利用URL字符串、锚文本、父页面和兄弟页面等启发信息,设计出一种链接评分方法。(2)网页预处理过程,包括分词、HTML解释和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪效果。(3)网页分类包括两个阶段:特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率、改进后的CHI特征和互信息,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增益、传统TFIDF和重要信息标签的权值,得到了更适应网页分类的权值计算方法。(4)最后,在VC6.0和SQL SERVER2000平台上,实现了一个简易的爬虫系统,并简要分析了爬虫的运行结果,达到了令人满意的效果。 原文的关键字:搜索引擎; 网络爬虫; 主题爬虫; 网页消噪; 特征提取; 作者的观点:为了获得较高的网页覆盖率,通用爬虫通常按照广度或深度优先原则遍历web有向图,在爬行过程中不太在意采集顺序和网页主题,对网页的内容缺乏细致的分析,过多的无关或无意义的页面被采集,严重浪费了系统资源和网络带宽并降低了爬虫的采集效率。为了满足应用的个性化和提高爬虫效率的需求,主题爬虫应运而生。相对于通用网络爬虫的搜索策略,主题网络爬虫是通过结合已知的启发信息而形成的启发式搜索策略。因此主题网络爬虫的研究主要集中在搜索策略的研究上。通常可以利用的启发信息有网页内容和链接结构,因此也就形成了基于内容的搜索策略和基于链接的搜索策略 本人的观点:网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。它遍历Web空间,不断从一个站点移动到另一个站点,自动建立索引,并加入到网页数据库中。网络爬虫分析某个网页时,利用HTML语言的标记结构来获取指向其他网页的URL地址,可以完全不依赖用户干预,实现网络上的自动爬行和搜索。正是这种行为方式,这些程序才被称为爬虫机器人。 总结:该篇文章说明的数据爬虫的基本原理,及运用原理,富有借鉴意义。 《主题网络爬虫的研究与实现》之读书笔记 索引:南京理工大学, 控制理论与控制工程, 2008, 硕士:《主题网络爬虫的研究与设计》 原文的摘要:随着Web信息的急速膨胀,各项和Web有关的服务也都逐渐增多,Web信息在很多方面得到了广泛的应用,人们对于Web信息的要求也越来越高,使得专门负责Web信息采集的网络爬虫技术面临了一个巨大的挑战。国内外的一些大公司对这一问题已经有了很成熟的解决方案,并已投入使用,但是这些大型搜索引擎只能给大众用户提供一种普通的不可制定的搜索服务,它不可能考虑到所有用户的各式各样的需求,而单机的网络爬虫在很多情况下又难当重任,中型规模的网络爬虫以其灵活的可定制性和单机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益增长的对Web信息的面向用户的需求,针对这一情况,本文展开了对国内外的网络爬虫技术的研究。网络爬虫研究中最重要的是设计构架和关键技术的解决。在吸取了他人技术和经验的基础上,本文设计描述了一个分布式网络爬虫的结构设计,其中包括硬件的构架,和软件的模块划分。硬件部分由一台PC机做控制节点,N台PC机作爬行节点,在局域网中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。然后本文分析了分布式网络爬虫的关节技术的解决方法,比如分布式的各个结点如何协同工作,任务如何分配,如何保持重要

文档评论(0)

hhuiws1482 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档