- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
垂直搜索引擎中主题网络蜘蛛爬行技术的研究-计算机应用技术专业论文
摘 要
随着Internet的飞速发展,Web的信息量越来越大,通用搜索引擎在信息采集、存 储等方面面临更大的挑战。此外,由于通用搜索引擎面向所有的用户,力争在返回结 果上做到面面俱到,而包罗万象的结果显然不能满足用户精确搜索的需求,因此,面 向专业领域的搜索引擎即垂直搜索引擎应运而生。
网络蜘蛛是搜索引擎的重要组成部分。通用搜索引擎的网络蜘蛛(简称通用网络 蜘蛛)的目标是要发现和下载尽可能多的网页,以使搜索引擎能回答更多的用户查询。 而垂直搜索引擎的网络蜘蛛(简称主题网络蜘蛛)的目标是在尽可能少地遍历Web的 前提下,尽可能多地发现与主题相关的网页。因此,如何设计一个好的主题网络蜘蛛 是构建垂直搜索引擎的关键。本文主要研究的是面向垂直搜索引擎的主题网络蜘蛛爬 行技术。主题网络蜘蛛在爬行过程中要解决以下几个关键问题:(1)怎样准确判断一个 己经爬取的网页是否与主题相关;(2) 如何决定待爬行URL的访问次序以提高主题网 络蜘蛛的收获比;(3)怎样穿越隧道以提高主题网络蜘蛛的召回率。
对于问题(1)本文分析了页面主题判别中的两种算法:主题中心向量法和基于文本 分类器的页面主题判别算法的优缺点,并采用文本分类器中的朴素贝叶斯分类器作为 本文的页面主题判别算法;对于问题(2)本文提出了基于分块提取链接上下文的主题预 测算法,将网页分块技术应用到链接上下文提取,这样提取的链接上下文对于链接主 题的预测具有较高的准确度;对于问题(3)本文改进了隧道技术,提出了基于主题相似 度的隧道技术并设计了一种基于主题相似度指导网络蜘蛛穿越隧道的爬行算法。所改 进的隧道技术能有效的在WWW上鉴别隧道页面和非隧道页面,从而在保证一定收获 比的前提下,使主题网络蜘蛛具有较高的召回率。
最后设计实现了一个主题网络蜘蛛系统,并在该系统中对本文提出的基于分块提 取链接上下文的主题预测算法和基于主题相似度指导网络蜘蛛穿越隧道的爬行算法分 别进行了主题爬行实验。
关键词:垂直搜索引擎; 主题网络蜘蛛; 主题判别;主题预测;隧道技术.
万方数据
I –
Abstract
The rapid growth of the Internet poses unprecedented scaling challenges for general- purpose search engine.In addition,general-purpose search engine provides service for all users,so the results from them are too exhaustive,thousands of irrelative results obviously do not meet precise search needs.Therefore,vertical search engine which provides service in a single field emerged.
Web spide is an important component of search engine.General-purpose web spi- der’s goal is to discover and download the page as much as possible, so that search engine can answer more user queries,but topic-oriented web spide’s goal is to find more web pages associated with the topic as far as possible under the premise of web traver- sal as Little as possible, therefore, how to design a good topic-oriented web spide is the key of constructing vertical search engine. In this paper, the major research is topic-oriented web spide’s crawling technique for vertical search engine. Topic-oriented web spide needs to resolve some important problems in the process of crawling as fol- lows:(1)How to accurately judge the crawling page
您可能关注的文档
- 反悬牵引与平卧牵引治疗腰椎间盘突出症的临床疗效对照观察-中医骨伤科学专业论文.docx
- 反扭曲向列相液晶的波导研究-理论物理专业论文.docx
- 反拉弧圈球在世界优秀男子乒乓球运动员技术中运用的研究-体育教育训练学专业论文.docx
- 反拱水垫塘底板块振动特性的研究-水力学及河流动力学专业论文.docx
- 反文化运动的真理观及其局限美国二十世纪六十年代后期到七十年代初反文化运动的认识论-外国语言学与应用语言学专业论文.docx
- 反文化运动的真理观及其局限美国二十世纪六十年代后期到七十年代初反文化运动的认识论研究-外国语言学与应用语言学专业论文.docx
- 反拱水垫塘拱圈底板动水压强变化规律的研究-水力学及河流动力学专业论文.docx
- 反本质主义语境下的文学本质问题-文艺学专业论文.docx
- 反模仿的说话人再确认的研究-电路与系统专业论文.docx
- 反求工程中复杂自由曲面协调设计及拓扑还原技术研究-机械制造及其自动化专业论文.docx
- 垂直搜索引擎主要技术研究-计算机系统结构专业论文.docx
- 垂直搜索引擎关键技术研究与实现-软件工程专业论文.docx
- 垂直搜索引擎在校园网中的研究与应用-通信与信息系统专业论文.docx
- 垂直搜索引擎在烟草行业的研究与应用-计算机科学与技术专业论文.docx
- 垂直搜索引擎的主题网页抓取策略研究-计算机应用技术专业论文.docx
- 垂直搜索引擎系统的研究与设计-软件工程专业论文.docx
- 垂直搜索引擎系统的分析与设计-计算机软件与理论专业论文.docx
- 垂直搜索引擎主要技术分析-软件工程专业论文.docx
- 垂直搜索的算法研究计算机软件与理论专业论文.docx
- 垂直棒束通道内气液两相流流动特性实验研究-动力工程及工程热物理专业论文.docx
最近下载
- 临床输血操作技术规范、输血制度(2025版).pptx VIP
- 部编版四年级上学期语文期末整理分类复习强化练习题〔有答案〕.doc VIP
- 公路养护及占道施工作业安全检查表、人员、车辆、机具设备管理用表、进、出场登记表、安全设施图表.pdf VIP
- 医院设备故障应急处理流程.docx VIP
- 植物学课程课件:植物系统学与分子进化.ppt VIP
- 部编版语文四年级上册第16课《麻雀》 配套练习(含解析).pdf VIP
- 82页精益制造数字化转型智能工厂三年规划建设方案PPT.pptx VIP
- 成人癫痫持续状态护理专家共识解读PPT课件.pptx VIP
- JSCC B系列变频器产品手册.pdf VIP
- 认识医生和护士幼儿园助教幼儿园医学科普.pptx VIP
原创力文档


文档评论(0)