面向主题搜索的网络爬虫信息采集策略研究.doc

面向主题搜索的网络爬虫信息采集策略研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向主题搜索的网络爬虫信息采集策略研究

面向主题搜索的网络爬虫信息采集策略研究 1、相关定义 1.1、相关概念 VSM 中的概念相对较为简单,其实质是把待处理的文档分词转变成多维向 量空间中的相应向量进行比较处理,而且 VSM 可以将抽象的文本相似度转变为 更加直观的空间中的相似度进行计算,它的核心就是文本的向量表示。文档内容 经过提取特征词等一系列处理后就可以表示为由特征词构成的向量空间的向量, 此时,文本的相似就可以映射到向量的相似上,也就是向量之间的夹角,那么我 们就可以认为这个相似度就是两个文档之间的相似度,相似度越大的它们所指的 内容就越相近,反之相似度越小的它们的内容就相差越大。 向量空间模型中文档(Document)、项(Term)、项权重(Term Weight)、向量空 间、相似度(similarity)是它的非常重要的概念。向量空间模型也可以称为词组向 量空间模型,自从 Salton 研究出来了以后就被广泛的应用了,实际中在信息抽取、 论文检测、主题相似度评估、搜索引擎有很多的应用,其实质是一个以数学为基 础的应用模型。其中所谓文档,泛指一般的文本,可以是网页文本也包含了多媒 体文本对象,是可以被词组表示的文档。模型中用于计算的项(Term)是指用文档 用包含的部分词组、短语等表示它所在的文档内容,这些词组或者词语等就称之 为项,也就是用于表示文档的词组或者短语都叫项。一片文档 D 可以表示为 D=(T1,T2,T3, )。对于每一个项,每篇文档中该项所占的比重是不同的, 对应着每一个比重 Wi(0= 1.2、网络管理数据采集系统的消息定义 Server 端和 Collector 端是通过 JMS 消息来进行通信的。JMS 消息中包括通用的 JMS 消息属性和网管系统中具体的业务消息的属性两部分,下面分别对这两部分进 行介绍。 3.1.1 JMS 消息 JMS 消息由消息头、消息属性和消息体三部分组成。消息头包含消息的识别信 息和路由信息,消息头包含一些标准的属性如:JMSDestination,JMSMessageID 等。 表 3.1 说明了消息头的具体属性以及这些属性由谁设置。 表 3.1 JMS 消息头的具体属性 消息头的属性 属性意义 由谁设置 JMSDestination 消息发送的目的地。 send 或 publish 方法 JMSDeliveryMode 传 递 模 式 。 有 两 种 模 式 : PERSISTENT 和 NON_PERSISTENT。PERSISTENT 表示该消息一定要 被 送 到 目 的 地 , 否 则 会 导 致 应 用 错 误 。 NON_PERSISTENT 表示偶然丢失该消息是被允许的。 这两种模式使开发者可以在消息传递的可靠性和吞吐 量之间找到平衡点。 send 或 publish 方法 JMSExpiration 消息过期时间,等于 QueueSender 的 send 方法中的 timeToLive 值或 TopicPublisher 的 publish 方法中的 timeToLive 值加上发送时刻的 GMT 时间值。如果 timeToLive 值等于零,则 JMSExpiration 被设为零,表 示该消息永不过期。如果发送后,在消息过期时间之后 消息还没有被发送到目的地,则该消息被清除。 send 或 publish 方法 19 续表 JMSPriority 消息优先级,从 0-9 十个级别,0-4 是普通消息, 5-9 是加急消息J。MS 不要求 JMS Provider 严格按照这 十个优先级发送消息,但必须保证加急消息要先于普通 消息到达。 send 或 publish 方法 JMSMessageID 唯一识别每个消息的标识,由 JMS Provider 产生。 send 或 publish 方法 JMSTimestamp 一个消息被提交给JMS Provider到消息被发出的时 间。 send 或 publish 方法 JMSCorrelationID 用来连接到另外一个消息,典型的应用是在回复消 息中连接到原消息。 客户 JMSReplyTo 提供本消息回复消息的目的地址 客户 JMSType 消息类型的识别符。 客户 JMSRedelivered 如果一个客户端收到一个设置了 JMSRedelivered 属性的消息,则表示可能该客户端曾经在早些时候收到 过该消息,但并没有签收(acknowledged)。 JMS Provider 消息属性是指除了消息头中定义好的标准属性外,JMS 通过提供一种机制所增 加到消息头中的新属性,这些新属性包含以下几种:消息头中原有的一些可选属性; JMS 提供者需要用到的属性;具体应用需要用到的属性(我们自己定义的具体的网 管消息

文档评论(0)

wyw118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档