- 5
- 0
- 约4.64万字
- 约 51页
- 2018-09-26 发布于广西
- 举报
PAGE
w
本 科 毕 业 论 文
主题网络爬虫的设计与实现
Design and implementation of subject-oriented crawler
姓 名:
学 号:23020051204554
学 院:软件学院
系:软件工程
专 业:软件工程
年 级:
指导教师: 副教授
w
摘 要
目前信息网上蕴含了大量的信息,但通过人工浏览的方法很难做到对信息的安全浏览、整理,很多有用的信息也就白白流失,产生了大量信息不能及时应用的矛盾,给用户造成了很大的不便,为了解决这一问题,搜索引擎这一新热点技术应运而生,本文结合信息网的特征,运用信息抽取和网页解析技术,设计和实现了搜索引擎中最重要的部分——网络爬虫,以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务。
本文首先对概述了网络爬虫的发展概况,然后分析了网络爬虫的体系结构以及实现原理,并深入分析了主题页面在Web上的分布特征与主题相关性的判别算法,具体工作如下:
(1)爬虫部分,通过设计种子网站进行爬虫,下载尽可能全且与用户要求相符合的网站。
(2)网页预处理过程,包括分词、HTML解析和网页消噪。在对树节点进行裁剪的基础上,设计了基于样式的网页消噪方法,进一步提高网页消噪过程。
(3)主题相关性判断,包括特征提取和权值计算阶段。在特征提取阶段,通过组合文档频率,得到新的特征,达到降维和提高分类精度的效果。在权值计算阶段,结合信息增益、传统TFIDF算法和空间向量模型VSM算法,得到了更适合主题相关性判断的权值计算方法。
(4)最后,在MYECLIPSE平台上,实现了一个简易的网络爬虫系统,并简要分析了爬虫的运行效果,达到了令人满意的效果。
关键词:网页解析;TFIDF算法;VSM算法
Abstract
Currently there is lot of information in the public security information website,but it is not possible to visit and clean up all information only through artifical manner,so much import information would be lost,also would go aginst cracking a criminal case,which causes a great deal of inconvenience to users.To deal with this problem,search engine technology came into being the new hot spot.Based on the characteristics of information networks,the paper designed and implemented the most important part of search engine—Web Spider,using information extraction and web analytic technology to provide more detailed classification accuracy, data is more comprehensive and in-depth, more timely updates of Internet search services.
This paper first outlined the development of search engines and reptile research network status and then analyzed the architecture of topic search engine and depthly analysd the theme of the page in the Web on the distribution of subject characteristics and the identification algorithm.In this paper,the concrete work as follows:
(1)Spider part. By set seeds through the design of website, download as much as po
您可能关注的文档
- 振荡器和能产生时钟信号的电路设计--毕业论文设计.doc
- 针织用纱线质量综合评价--毕业论文设计.doc
- 镇江电信企业人力资源管理状况的调研报告--毕业论文设计.doc
- 振铃检测及模拟摘挂机--毕业论文设计.doc
- 针对数据挖掘的决策树分类算法的研究--毕业论文设计.doc
- 蒸发量为1000kg/h的板式蒸发装置的设计--毕业论文设计.doc
- 正丁烷氧化制顺酐催化剂活性及动力学研究--毕业论文设计.doc
- 正交频分复用(OFDM)的研究与仿真--毕业论文设计.doc
- 正确选择数据采集系统中英文翻译(适用于外文翻译+中英文对照)--毕业论文设计.doc
- 正态分布的若干理论及其应用--毕业论文设计.doc
最近下载
- 某植物保健饮料项目商业计划书.docx VIP
- English in Mind 2级别精品教学课件U3.pptx VIP
- BRCGS食品安全球标准第9版标准讲解及内审员培训教材.pptx
- 劳尔RAL色卡与潘通PANTONE色卡对照表.pdf VIP
- 聚氯乙烯生产环评报告书.pdf VIP
- QC-T 592-2013 液压制动钳总成性能要求及台架试验方法.pdf VIP
- 房屋拆除工程监理规划.docx VIP
- 2024年冲刺-副主任医师(副高)-急诊医学(副高)考试历年(2015-2023)真题荟萃带答案.docx VIP
- 公司物业服务投标方案(技术方案).docx VIP
- 世界工程组织联合会:2024生成式人工智能安全与全球治理报告.pdf VIP
原创力文档

文档评论(0)