电子与通信工程专业毕业论文 精品论文 可扩展分布式垂直搜索引擎设计与实现研究.docVIP

电子与通信工程专业毕业论文 精品论文 可扩展分布式垂直搜索引擎设计与实现研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电子与通信工程专业毕业论文 精品论文 可扩展分布式垂直搜索引擎设计与实现研究

电子与通信工程专业毕业论文 [精品论文] 可扩展分布式垂直搜索引擎设计与实现研究关键词:搜索引擎 网络资源 聚焦爬虫 模糊分类 访问权限 网络爬虫 信息分类摘要:众所周知,在浩如烟海的互联网上存在着大量的隐蔽网络资源,这些资源由于许多因素不容易被用户轻易地发掘,然而这些隐蔽信息在数量和质量上都优于普通的网络资源,所以对它们的发掘研究变得越来越重要。通用搜索引擎由于受到爬行深度的限制不可能全面地抓取这些信息,并且许多网站都设置了访问权限,一般爬虫(Crawler)被禁止访问;通用搜索引擎的页面解析也不能适应各具特色的网页形式的要求。相对于通用搜索引擎,具备特殊功能的垂直搜索引擎在挖掘隐蔽信息方面却能取得较好的效果。垂直搜索引擎采用针对资源特点的定制抓取策略和解析方法,能提取出精度非常高的网络信息,对于用户来讲,通过它可以在某一领域查询到经过精心筛选的信息。 论文研究了搜索引擎的相关技术。通过分析研究聚焦爬虫的各种爬行策略,提出了基于树型网络结构的国外军事论坛网站资源的网络爬虫方法。通常论坛在网络分布上严格符合树型网络结构,可以针对性地加入爬行链路选择机制,使爬虫只抓取存有信息的贴子网页。在信息分类方面,论坛贴予内容含有大量的无用信息(回贴、恶意发贴),而这些无用信息通过统计发现,含有两个通常的特点:字数少、段落少。本文针对这一特点,提出了基于模糊模式识别的信息分类方法,将贴子信息的字数和段落数提取出来做为影响因子,采用样本分析法确定其影响度和权重,根据S型函数形态计算出分类隶属函数公式,有效地提高了分类的质量。在索引与检索方面,研究了垂直搜索引擎常用的索引软件Lucene的索引方法,提出了针对用户查询的结果缓存方法,通过OSCache进行了实现,大大提高了检索的响应速度。通过对搜索引擎的整体研究,使用Java建立了一个包含M论坛的部分信息的军事资料搜索引擎,并将前面的研究结果进行了实现。最后研究了分布式搜索引擎的各种系统结构及运行机制,提出了基于分布式元搜索引擎系统的分布式垂直搜索引擎的系统框架,并提出了基于CORBA模式的分布式实现方法。 正文内容 众所周知,在浩如烟海的互联网上存在着大量的隐蔽网络资源,这些资源由于许多因素不容易被用户轻易地发掘,然而这些隐蔽信息在数量和质量上都优于普通的网络资源,所以对它们的发掘研究变得越来越重要。通用搜索引擎由于受到爬行深度的限制不可能全面地抓取这些信息,并且许多网站都设置了访问权限,一般爬虫(Crawler)被禁止访问;通用搜索引擎的页面解析也不能适应各具特色的网页形式的要求。相对于通用搜索引擎,具备特殊功能的垂直搜索引擎在挖掘隐蔽信息方面却能取得较好的效果。垂直搜索引擎采用针对资源特点的定制抓取策略和解析方法,能提取出精度非常高的网络信息,对于用户来讲,通过它可以在某一领域查询到经过精心筛选的信息。 论文研究了搜索引擎的相关技术。通过分析研究聚焦爬虫的各种爬行策略,提出了基于树型网络结构的国外军事论坛网站资源的网络爬虫方法。通常论坛在网络分布上严格符合树型网络结构,可以针对性地加入爬行链路选择机制,使爬虫只抓取存有信息的贴子网页。在信息分类方面,论坛贴予内容含有大量的无用信息(回贴、恶意发贴),而这些无用信息通过统计发现,含有两个通常的特点:字数少、段落少。本文针对这一特点,提出了基于模糊模式识别的信息分类方法,将贴子信息的字数和段落数提取出来做为影响因子,采用样本分析法确定其影响度和权重,根据S型函数形态计算出分类隶属函数公式,有效地提高了分类的质量。在索引与检索方面,研究了垂直搜索引擎常用的索引软件Lucene的索引方法,提出了针对用户查询的结果缓存方法,通过OSCache进行了实现,大大提高了检索的响应速度。通过对搜索引擎的整体研究,使用Java建立了一个包含M论坛的部分信息的军事资料搜索引擎,并将前面的研究结果进行了实现。最后研究了分布式搜索引擎的各种系统结构及运行机制,提出了基于分布式元搜索引擎系统的分布式垂直搜索引擎的系统框架,并提出了基于CORBA模式的分布式实现方法。众所周知,在浩如烟海的互联网上存在着大量的隐蔽网络资源,这些资源由于许多因素不容易被用户轻易地发掘,然而这些隐蔽信息在数量和质量上都优于普通的网络资源,所以对它们的发掘研究变得越来越重要。通用搜索引擎由于受到爬行深度的限制不可能全面地抓取这些信息,并且许多网站都设置了访问权限,一般爬虫(Crawler)被禁止访问;通用搜索引擎的页面解析也不能适应各具特色的网页形式的要求。相对于通用搜索引擎,具备特殊功能的垂直搜索引擎在挖掘隐蔽信息方面却能取得较好的效果。垂直搜索引擎采用针对资源特点的定制抓取策略和解析方法,能提取出精度非常高的网络信息,对于用户来讲,通过它可以在某一领域查询到经过精心筛选的

您可能关注的文档

文档评论(0)

bodkd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档