面向汽车行业的主题爬虫研究与实现-电路与系统专业毕业论文.docxVIP

  • 19
  • 0
  • 约3.87万字
  • 约 48页
  • 2019-05-11 发布于上海
  • 举报

面向汽车行业的主题爬虫研究与实现-电路与系统专业毕业论文.docx

华 华 中 科 技 大 学 硕 士 学 位 论 文 I I 摘要 随着互联网技术的不断发展以及网络信息多元化的发展,传统搜索引擎已经不 能满足人们对于特定行业领域的个性化检索需求,因此针对各行业主题信息的搜索 引擎应运而生。而主题爬虫是主题搜索引擎的核心部分,为保证其返回查询信息的 准确性和及时性,对主题爬虫展开研究具有重要意义。本文设计实现的汽车主题爬 虫就是在这样的背景下产生的。 本文首先阐述了主题爬虫的发展现状,然后对目前主流爬虫在主题基准模型、 网页信息提取和网页搜索策略等关键模块的各种实现方案进行比较分析,提出了适 合汽车主题爬虫建立的一套完整的设计方案,并对主题爬虫的各主要模块进行功能 实现。最后对设计的主题爬虫展开性能测试,并进行相应的总结分析。 具体地说,本文对汽车主题爬虫的研究工作主要体现在以下几点: 1、分析主流主题爬虫实现流程,提出适合汽车主题爬虫的设计方案,并设计出 汽车主题爬虫的总体结构框架。 2、通过比较主题基准模型实现方案,采用向量空间模型的方法构建汽车主题关 键词基准模型。 3、通过比较网页分析提取方案,采用 TagWindow 标签窗口分块技术提取出网 页正文和主题相关网页链接。 4、通过比较网页搜索策略方案,采用基于遗传算法的网页搜索策略引导主题爬 虫发现更多的主题相关资源。 5、在对汽车主题爬虫各模块实现基础上进行性能测试,对实验数据进行对比分 析,指出本文设计的汽车主题爬虫在检索汽车行业主题信息上的优势。 关键词:主题爬虫,向量空间模型,网页正文分析,遗传算法 II II Abstract With the developing of Internet technology and a wide range of network information, the traditional search engines can no longer meet the growing demand for personalized service, so all kinds of topic-based search engine came into being. The theme crawler is the core part of topic-based search engine. To ensure the accuracy and timeliness of the returned query information, study on the theme crawler has important significance. The work in this thesis of designing and implementing the automobile-based theme crawler is on such background. This paper describes the current development of theme crawler firstly, then compares and analyzes various implementation schemes of the current mainstream standard models, web information extraction and web search strategies and other key modules. On the base of the fore-mentioned work, we provide a scheme of theme crawler suitable for automobile and realize all main modules. Finally, we design some performance test for the focused crawler, and make corresponding summaries. Specifically, our studies on the automobile-based theme crawler include the following aspects: On the base of analyzing the implementation of mainstream theme crawlers, we proposed a scheme for automobile-based theme crawler and designed the framework. After comparing different standard models, we de

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档