网站大量收购闲置独家精品文档,联系QQ:2885784924

基于垂直搜索引擎的考研资讯.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于垂直搜索引擎的考研资讯

基于垂直搜索引擎的考研资讯 采集、分析、发布、检索系统设计文档 前言   象牙塔考研社区(), 通过本课题的研究,利用搜索引擎技术自动的去采集相关数据,然后通过网页数据元提取技术,将有用信息元提取出来,直接跟象牙塔考研社区的数据库关联起来,实现数据的自动采集、自动更新。同时建立完善的站内搜索引擎,提高用户获取平台数据的友好体验。 数据自动采集保障了数据的来源,站内全文搜索引擎提供了数据的筛选手段。 通过这个项目的研究,使象牙塔社区数据的更新实现了自动化、智能化,在减少人工成本的同时保证数据更新的速度和质量。真正做到“最及时的资讯”。 系统总体结构与设计方案 操作系统的选择 Linux操作系统作为服务器端的操作系统一直是一个不错的选择,不仅仅因为Linux操作系统是一个开源的操作系统,最重要的是其稳定性非常强;而最为服务器的操作系统这是至关重要的。本系统的服务器操作系统选择的是在众多Linux操作系统中的一款,那就是CentOS5.3。之所以会选择它是因为其自带的yum管理工具,可以方便的安装和维护Linux下的很多软件。 Web 服务器 在B/S 模式的Web 技术中,Web 服务器既是客户端的“代理”,又是数据服务器的客户机。它将不同来源、不同格式的信息会集成统一界面,提供客户端浏览器,具有举足轻重的地位。Web 服务器的选择应考虑下列因素:与系统现有网络的配合性,与数据库服务器的结合性、开发Web 页面的难易程度、安全性和稳定性。Tomcat 是一个免费的开发源码的Serlvet 容器,它是Apache 基金会的Jakarta 项目中的一个核心项目,也是Sun 公司官方推荐的servlet 和jsp 容器,同时它还获得过多种荣誉。servlet 和jsp 的最新规范都可以在tomcat的新版本中得到实现。 Tomcat 具有轻量级和灵活嵌入到应用系统中的优点,所以得到了广泛的应用。Tomcat 在管理Servlet 方面非常出色。因此,本系统选择omcat6.0 作为Web 服务器。 数据库服务器 MySQL是一个小型关系型数据库管理系统,目前MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。与其他的大型数据库例如Oracle、DB2、SQL Server等相比,MySQL自有它的不足之处,如规模小、功能有限(MySQL Cluster的功能和效率都相对比较差)等,但是这丝毫也没有减少它受欢迎的程度。对于一般的个人使用者和中小型企业来说,MySQL提供的功能已经绰绰有余,而且由于MySQL是开放源码软件,因此可以大大降低总体拥有成本。 本系统将在Heritrix框架的基础上,对其进行功能扩展,开发面向垂直搜索的聚焦爬虫。Heritrix具有良好的可扩展性,针对中小型企业级应用,在成熟爬虫框架的基础上进行扩展开发不仅可以节省大量开发成本、降低了技术风险,同时还能达到事半功倍的效果。 针对聚焦爬虫的特性,我们将在以下几个方面对Heritrix进行扩展[36]。 (1) 定制自己的Extractor处理器: 针对聚焦爬虫的特性,我们可以定制与实际垂直搜索应用场景相匹配的专用Extractor处理器,该处理器类应该有以下功能: (a) 对所有不含有要抓取的结构化信息页面的URL、又不含有可以集中提取前者URL的种子型URL,都不作处理。 (b) 可以集中提取含结构化信息页面URL的种子型URL(如产品类目URL),提取全部的含结构化信息页面的URL(如产品信息列表URL)。 (c) 从含结构化信息页面的URL提取所需的结构化信息,并加以记录。 (2) 定制Queue-assignment-policy提高并发性: Heritrix使用Berkeley DB来构建链接队列,链接队列被放置于BdbMultipleWorkQueues 中时,总是根据链接名生产一个KEY, 然后把KEY值相同的链接放在同一个队列中。 默认情况下,Heritrix使用HostnameQueueAssignment(把Host名当做KYE值)来生成链接的KEY值。这样设计主要是满足广域网多网站同时抓取的需求。用在垂直搜索时这就产生一个弊端,垂直搜索有时面对一个网站抓取,当链接都来自一个网站时,所有的链接将会被放在到一个队列里。由于在Heritrix中,一个线程在一个队列中取出一个URL处理,在处理完这个链接前,链接队列会一直处于阻塞状态,导致其他线程无法获取其中的URL,这样就限制了多线程的发挥。 实际运用时,可以通过定制Queue-assignment-policy,继承QueueAss

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档