- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于垂直搜索引擎的考研资讯
基于垂直搜索引擎的考研资讯
采集、分析、发布、检索系统设计文档
前言
象牙塔考研社区(),
通过本课题的研究,利用搜索引擎技术自动的去采集相关数据,然后通过网页数据元提取技术,将有用信息元提取出来,直接跟象牙塔考研社区的数据库关联起来,实现数据的自动采集、自动更新。同时建立完善的站内搜索引擎,提高用户获取平台数据的友好体验。
数据自动采集保障了数据的来源,站内全文搜索引擎提供了数据的筛选手段。
通过这个项目的研究,使象牙塔社区数据的更新实现了自动化、智能化,在减少人工成本的同时保证数据更新的速度和质量。真正做到“最及时的资讯”。
系统总体结构与设计方案
操作系统的选择
Linux操作系统作为服务器端的操作系统一直是一个不错的选择,不仅仅因为Linux操作系统是一个开源的操作系统,最重要的是其稳定性非常强;而最为服务器的操作系统这是至关重要的。本系统的服务器操作系统选择的是在众多Linux操作系统中的一款,那就是CentOS5.3。之所以会选择它是因为其自带的yum管理工具,可以方便的安装和维护Linux下的很多软件。
Web 服务器
在B/S 模式的Web 技术中,Web 服务器既是客户端的“代理”,又是数据服务器的客户机。它将不同来源、不同格式的信息会集成统一界面,提供客户端浏览器,具有举足轻重的地位。Web 服务器的选择应考虑下列因素:与系统现有网络的配合性,与数据库服务器的结合性、开发Web 页面的难易程度、安全性和稳定性。Tomcat 是一个免费的开发源码的Serlvet 容器,它是Apache 基金会的Jakarta 项目中的一个核心项目,也是Sun 公司官方推荐的servlet 和jsp 容器,同时它还获得过多种荣誉。servlet 和jsp 的最新规范都可以在tomcat的新版本中得到实现。 Tomcat 具有轻量级和灵活嵌入到应用系统中的优点,所以得到了广泛的应用。Tomcat 在管理Servlet 方面非常出色。因此,本系统选择omcat6.0 作为Web 服务器。
数据库服务器
MySQL是一个小型关系型数据库管理系统,目前MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。与其他的大型数据库例如Oracle、DB2、SQL Server等相比,MySQL自有它的不足之处,如规模小、功能有限(MySQL Cluster的功能和效率都相对比较差)等,但是这丝毫也没有减少它受欢迎的程度。对于一般的个人使用者和中小型企业来说,MySQL提供的功能已经绰绰有余,而且由于MySQL是开放源码软件,因此可以大大降低总体拥有成本。
本系统将在Heritrix框架的基础上,对其进行功能扩展,开发面向垂直搜索的聚焦爬虫。Heritrix具有良好的可扩展性,针对中小型企业级应用,在成熟爬虫框架的基础上进行扩展开发不仅可以节省大量开发成本、降低了技术风险,同时还能达到事半功倍的效果。
针对聚焦爬虫的特性,我们将在以下几个方面对Heritrix进行扩展[36]。
(1) 定制自己的Extractor处理器:
针对聚焦爬虫的特性,我们可以定制与实际垂直搜索应用场景相匹配的专用Extractor处理器,该处理器类应该有以下功能:
(a) 对所有不含有要抓取的结构化信息页面的URL、又不含有可以集中提取前者URL的种子型URL,都不作处理。
(b) 可以集中提取含结构化信息页面URL的种子型URL(如产品类目URL),提取全部的含结构化信息页面的URL(如产品信息列表URL)。
(c) 从含结构化信息页面的URL提取所需的结构化信息,并加以记录。
(2) 定制Queue-assignment-policy提高并发性:
Heritrix使用Berkeley DB来构建链接队列,链接队列被放置于BdbMultipleWorkQueues 中时,总是根据链接名生产一个KEY, 然后把KEY值相同的链接放在同一个队列中。
默认情况下,Heritrix使用HostnameQueueAssignment(把Host名当做KYE值)来生成链接的KEY值。这样设计主要是满足广域网多网站同时抓取的需求。用在垂直搜索时这就产生一个弊端,垂直搜索有时面对一个网站抓取,当链接都来自一个网站时,所有的链接将会被放在到一个队列里。由于在Heritrix中,一个线程在一个队列中取出一个URL处理,在处理完这个链接前,链接队列会一直处于阻塞状态,导致其他线程无法获取其中的URL,这样就限制了多线程的发挥。
实际运用时,可以通过定制Queue-assignment-policy,继承QueueAss
您可能关注的文档
- 自考电子技术基础(一)试题.doc
- 数字电子技术综合实训指导书.doc
- 智能化低压电网远程控制系统.doc
- 电教室网络管理系统方案.doc
- 电子工业学试卷.doc
- 泵站自动化监测与控制系统.doc
- 硕士论文 基于文本的Web图片搜索引擎的研究.doc
- 《数控加工工艺》复习试卷C卷.doc
- 双臂曲柄-机械加工工艺规程.doc
- 在多继承中,基类指针是如何指向派生类对象的.jsp.doc
- 中国国家标准 GB/T 12357.1-2024通信用多模光纤 第1部分:A1类多模光纤特性.pdf
- 中国国家标准 GB/T 18851.2-2024无损检测 渗透检测 第2部分:渗透材料的检验.pdf
- 《GB/T 18851.2-2024无损检测 渗透检测 第2部分:渗透材料的检验》.pdf
- GB/T 18851.2-2024无损检测 渗透检测 第2部分:渗透材料的检验.pdf
- GB/T 44927-2024知识管理体系 要求.pdf
- 中国国家标准 GB/T 44927-2024知识管理体系 要求.pdf
- 《GB/T 44927-2024知识管理体系 要求》.pdf
- GB/T 44937.4-2024集成电路 电磁发射测量 第4部分:传导发射测量1 Ω/150 Ω直接耦合法.pdf
- 《GB/T 44937.4-2024集成电路 电磁发射测量 第4部分:传导发射测量1 Ω/150 Ω直接耦合法》.pdf
- 中国国家标准 GB/T 44937.4-2024集成电路 电磁发射测量 第4部分:传导发射测量1 Ω/150 Ω直接耦合法.pdf
最近下载
- 2023年项目融资经理年终总结及年后展望.pptx VIP
- (完整word版)环评报告表资料清单--一般项目.doc
- 保安服务售后服务委托协议2024年.docx VIP
- 2023年投融资业务经理年终总结及下一年计划.pptx VIP
- 企业支付委托书.docx VIP
- 耀华XK3190-DS10技术说明书(1.00版).pdf
- 四方伟业数据治理软件V3.0.5操作手册.pdf
- T GDEIIA 56—2024 垂直起降低空航空器起降场基础设施配置技术要求.pdf VIP
- 老师教学课件-第二组 理念论、实在论与教育.pptx
- 2025湖北随州市公安局招聘警务辅助人员48名笔试模拟试题及答案解析.docx VIP
文档评论(0)