基于垂直搜索引擎的考研资讯.doc

下载文档

2
0
约4.02千字
约 7页
2018-01-26 发布于河南
举报
版权申诉
保障服务

基于垂直搜索引擎的考研资讯.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于垂直搜索引擎的考研资讯

基于垂直搜索引擎的考研资讯采集、分析、发布、检索系统设计文档前言　象牙塔考研社区（），通过本课题的研究，利用搜索引擎技术自动的去采集相关数据，然后通过网页数据元提取技术，将有用信息元提取出来，直接跟象牙塔考研社区的数据库关联起来，实现数据的自动采集、自动更新。同时建立完善的站内搜索引擎，提高用户获取平台数据的友好体验。数据自动采集保障了数据的来源，站内全文搜索引擎提供了数据的筛选手段。通过这个项目的研究，使象牙塔社区数据的更新实现了自动化、智能化，在减少人工成本的同时保证数据更新的速度和质量。真正做到“最及时的资讯”。系统总体结构与设计方案操作系统的选择 Linux操作系统作为服务器端的操作系统一直是一个不错的选择，不仅仅因为Linux操作系统是一个开源的操作系统，最重要的是其稳定性非常强；而最为服务器的操作系统这是至关重要的。本系统的服务器操作系统选择的是在众多Linux操作系统中的一款，那就是CentOS5.3。之所以会选择它是因为其自带的yum管理工具，可以方便的安装和维护Linux下的很多软件。 Web 服务器在B/S 模式的Web 技术中，Web 服务器既是客户端的“代理”，又是数据服务器的客户机。它将不同来源、不同格式的信息会集成统一界面，提供客户端浏览器，具有举足轻重的地位。Web 服务器的选择应考虑下列因素：与系统现有网络的配合性，与数据库服务器的结合性、开发Web 页面的难易程度、安全性和稳定性。Tomcat 是一个免费的开发源码的Serlvet 容器，它是Apache 基金会的Jakarta 项目中的一个核心项目，也是Sun 公司官方推荐的servlet 和jsp 容器，同时它还获得过多种荣誉。servlet 和jsp 的最新规范都可以在tomcat的新版本中得到实现。 Tomcat 具有轻量级和灵活嵌入到应用系统中的优点，所以得到了广泛的应用。Tomcat 在管理Servlet 方面非常出色。因此，本系统选择omcat6.0 作为Web 服务器。数据库服务器 MySQL是一个小型关系型数据库管理系统，目前MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。与其他的大型数据库例如Oracle、DB2、SQL Server等相比，MySQL自有它的不足之处，如规模小、功能有限（MySQL Cluster的功能和效率都相对比较差）等，但是这丝毫也没有减少它受欢迎的程度。对于一般的个人使用者和中小型企业来说，MySQL提供的功能已经绰绰有余，而且由于MySQL是开放源码软件，因此可以大大降低总体拥有成本。本系统将在Heritrix框架的基础上，对其进行功能扩展，开发面向垂直搜索的聚焦爬虫。Heritrix具有良好的可扩展性，针对中小型企业级应用，在成熟爬虫框架的基础上进行扩展开发不仅可以节省大量开发成本、降低了技术风险，同时还能达到事半功倍的效果。针对聚焦爬虫的特性，我们将在以下几个方面对Heritrix进行扩展[36]。 (1) 定制自己的Extractor处理器：针对聚焦爬虫的特性，我们可以定制与实际垂直搜索应用场景相匹配的专用Extractor处理器，该处理器类应该有以下功能： (a) 对所有不含有要抓取的结构化信息页面的URL、又不含有可以集中提取前者URL的种子型URL，都不作处理。 (b) 可以集中提取含结构化信息页面URL的种子型URL(如产品类目URL)，提取全部的含结构化信息页面的URL(如产品信息列表URL)。 (c) 从含结构化信息页面的URL提取所需的结构化信息，并加以记录。 (2) 定制Queue-assignment-policy提高并发性： Heritrix使用Berkeley DB来构建链接队列，链接队列被放置于BdbMultipleWorkQueues 中时，总是根据链接名生产一个KEY, 然后把KEY值相同的链接放在同一个队列中。默认情况下，Heritrix使用HostnameQueueAssignment(把Host名当做KYE值)来生成链接的KEY值。这样设计主要是满足广域网多网站同时抓取的需求。用在垂直搜索时这就产生一个弊端，垂直搜索有时面对一个网站抓取，当链接都来自一个网站时，所有的链接将会被放在到一个队列里。由于在Heritrix中，一个线程在一个队列中取出一个URL处理，在处理完这个链接前，链接队列会一直处于阻塞状态，导致其他线程无法获取其中的URL,这样就限制了多线程的发挥。实际运用时，可以通过定制Queue-assignment-policy，继承QueueAss