- 8
- 0
- 约3.92万字
- 约 59页
- 2019-03-30 发布于上海
- 举报
独创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名: 日期: 年 月 日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本论文属于
保密□ ,在 年解密后适用本授权书。
不保密□。
(请在以上方框内打“√”)
学位论文作者签名: 指导教师签名:
日期: 年 月 日 日期: 年 月 日
华
华 中 科 技 大 学 硕 士 学 位 论 文
I
I
摘 要
随着时间的慢慢的往后延续,科学技术水平不断的创新,网络通讯也越来 越发达,网络信息的发布和传输越来越快,人们对数据的需求量的急剧的增加, Web 上的信息也同时以大指数级的增加,慢慢的网络信息的过滤的显得尤为的 重要,同时也不断的推动着网络爬虫技术的快速向前改进,对于传统的网页爬 虫所选择的过滤条件过与广泛,导致信息的及时性与主题的相关性的很难得到 保障,所以对于如何提高网络爬虫的搜索效率以及信息的过滤就很值得研究 了。
本文研究目的在于提高搜索的效率,在最少的时间内得到用户最想要的结 果,Web 采集信息的主要过程包括:网页爬取,网页过滤,网页分析,网页本 地化,网页爬取需要解决的问题是通过程序高效的抓取到目的网页,页面过滤 对垃圾页面,页面内容进行分析过滤,页面分析对获取的页面进行拆分组合的 过程,页面本地化是对页面的客户端完整显示出来。
本文实现了一个可以自动抓取网页的 Spider,详细的讲解了 URL 地址解 析,去重,页面加载,页面过滤等关键技术,对 URL 地址解析,在提高程序 运行的性能,表达验证,搜索策略进行探讨。网页分析方面主要探讨了通过对 html 标签进行解析提取这一简单可行的方法提取网页中的正文,URL 链接,js, css 等脚本文件,图片,多媒体文件。网页本地化如何是客户端展现的页面可 原先的页面保存一致,最后通过一个实例进行实验。
关键词:网络爬虫,页面分析,搜索,引擎,网络应用程序结构
II
II
Abstract
As time slowly backward continuation of the scientific and technological level constant innovation, more and more developed network communication, network information, and transfer faster and faster, the sharp increase of the demand for data on the Web information is also exponential increase slowly network information filtering seems particularly important to also continue to promote the web crawler technology, fast forward improvements, select the filter conditions over traditional web crawler with a wide range of information and the timeliness of the theme is difficult to be protected, for how to improve the efficiency of the Web Crawler search and filtering of information very worthy of study.
The main process for the purpose of this study is to improve the efficiency of the search results in the minimum time the user want the Web to collect information, including: Web crawling, Web filtering, web analytics
您可能关注的文档
- 基于数字故事的任务型教学法在初中英语教学中的应用-现代教育技术专业论文.docx
- 基于客户满意度的天一人才网CRM研究-工商管理专业论文.docx
- 基于数值模拟和快速碳化实验的新混凝土防碳化研究-水利工程专业论文.docx
- 基于数字图像处理的印刷缺陷检测-控制理论与控制工程专业论文.docx
- 基于可信性测度的模糊变量的数字特征及其不等式确定性等价-概率论与数理统计专业论文.docx
- 基于免疫理论的项目合同风险管理研究管理科学与工程专业论文.docx
- 基于企业层面的新能源汽车发展战略研究-企业管理专业论文.docx
- 基于平衡计分卡的ERP项目实施绩效评价体系分析-管理科学与工程专业论文.docx
- 基于全寿命周期理论的高校建筑节能管理研究-工程经济与管理专业论文.docx
- 基于网格和密度的数据流聚类研究-计算机软件与理论专业论文.docx
- 基于提升小波与聚类算法的脉象信号识别的研究-信号与信息处理专业论文.docx
- 基于上海家庭农场的农业社会化服务体系研究-农林经济管理专业论文.docx
- 基于全经验信息累计比率的可加模型变量选择-概率论与数理统计专业论文.docx
- 基于数据块采样的PostgreSQL统计信息估算方法的研究-计算机应用技术专业论文.docx
- 基于利率期限结构的我国可转债定价分析-管理科学与工程专业论文.docx
- 基于视频图像处理的驾驶员疲劳检测方法研究-信号与信息处理专业论文.docx
- 基于数据流挖掘的流量识别技术研究-计算机技术专业论文.docx
- 基于湿度法的铁矿水分测量系统研究-仪器仪表工程专业论文.docx
- 基于施工合同视角的工程项目质量管理分析-工程管理专业论文.docx
- 基于文本聚类的微博舆情热点检测技术研究-软件工程专业论文.docx
最近下载
- 2025浙江绍兴越城区初升高自主招生数学试卷试题(含答案详解).docx VIP
- 大数据在桥梁结构健康监测中的应用研究.docx VIP
- catti二级笔译日语真题及答案2025.doc VIP
- 电工类本科国网考试注意事项及复习方法 .pdf VIP
- EHS100系列电液伺服使用说明书V1.5.pdf VIP
- 2024年国网北京公司考试真题.docx VIP
- 2025年甘肃省嘉峪关市中考英语试卷.docx
- 补填入党志愿书的参考格式【最新精选】.doc VIP
- JJF(蒙) 119-2025 烷基汞分析仪校准规范.docx VIP
- DB53_T 1447.3-2025 公路工程施工安全风险分级管控和隐患排查治理双重预防体系建设指南 第3部分:桥梁工程.docx VIP
原创力文档

文档评论(0)