基于支持向量机技术的主题爬行策略分析-analysis of topic crawling strategy based on support vector machine technology.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于支持向量机技术的主题爬行策略分析-analysis of topic crawling strategy based on support vector machine technology
第一章 绪论本章首先对主题爬行的特点及其研究意义进行了概述,然后对国内外研究现状进行分析,提出基于 支持向量机技术的主题爬行策略研究需要解决的问题,最后提出论文研究的内容和安排。§1-1 课题的研究背景及意义随着互联网的飞速发展,我们进入了一个信息时代。Web(互联网)上存在着形形色色、各种各样 的信息,为人们提供了丰富多彩的服务。随着网络的迅猛发展,Web 对人们生活的影响越来越大。我 们的生活、学习、工作、沟通甚至是休闲购物都已经和互联网密切相关。随着Web的快速增长,互联网用户也和互联网信息一样爆炸式增长。预计到 2012 年时,全球网民 数量(以独立访问用户量为标准)将超过 19 亿[1],接近全球总人口的三分之一[2]。可见,互联网必将 深入并影响人们的正常生活。但是,互联网的信息量巨大,2006 年全球制造、复制出的数字信息量总 计 1610 亿GB,到 2010 年,全球数字信息量预计为 9880 亿GB,大约为 2006 年总量的 6 倍[3]。大量的 信息给人们生活带来极大的便利的同时也带来的一大难题,如何才能从海量信息中快速准确的找到人们 要求的信息呢?为了解决这一难题,搜索引擎的概念应运而生。搜索引擎(search engine)是指根据一定的策略、 运用特 定的计算机 程序搜集互 联网上的信 息,在对信 息进行组织 和处理后, 并将处理后 的信息 显示给用户,是为用户提供检索服务的系统[4]。搜索引擎的产生,把人们从需要记忆大量复杂的网址的境况中解脱出来。只需要在搜索框中输入自 己想要的内容,搜索引擎就会将 Web 中的各种与之相关的内容呈献给用户。通过使用搜索引擎,人们 定位和收集信息的能力大大增强了。用户再也不需要为了寻找感兴趣的信息而去耗费大量的时间和精力 了。搜索引擎能够收集众多的网络站点来提供全局性网络资源控制与检索机制,来帮助用户方便、快捷 地在网络中寻找并定位所需的信息。随着互联网技术的高速发展,网络资源也在以迅猛的速度增加着。有资料显示:在如今的网络上, 网页以每天超过 100 万的速度增长着[5]。但是在网络信息日益增多的同时,由于网络、存储和计算等资 源的有限性,这种传统的搜索技术已经逐渐的难以满足人们的需求,其局限性日益突出,具体表现在:1) 随着互联网的发展,网络中的资源和信息量也急剧膨胀,网络中的站点和页面更是浩瀚繁多。 而且 Web 数据类型种类的多样性也让通用搜索引擎处理起来非常乏力。浩如烟海站点和页面数量迫使 通用搜索引擎的网络爬虫爬行这个网络需要大量的时间,不能保证信息的及时更新,同时在网络爬虫在 网络上爬行时也会占用大量网络带宽。2) 通用搜索引擎大多提供基于关键字的检索,不能有效理解用户的需求。3) 对于来自不同背景、拥有不同目标以及处于不同时期的用户往往有不同的检索目的和需求,通 用搜索引擎这种无差别的搜索模式满足不了用户的需求,这就造成了 Web 用户和 Web 资源之间产生了巨大的鸿沟和矛盾。4) 用户搜索时,往往返回大量的用户不关心或者与用户目标无关的网页。 因此,人们迫切需要一种更智能、更精确、更专业的搜索引擎技术,为了满足人们的需要,垂直搜索引擎应运而生。垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库 中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用 户。垂直搜索引擎的主要技术包括信息采集技术、网页信息抽取技术、简单语法分析、信息处理技术、 数据挖掘技术、简单分词技术和索引技术。搜索引擎的信息采集工作是通过网络爬虫(Web Crawler)实现的。传统的搜索引擎即通用搜索引 擎是通过通用爬虫尽可能多的采集信息页面,而在信息采集的过程中,它并不太在意页面的采集顺序和 被采集页面的相关主题。这样的采集过程会消耗大量的系统资源和网络带宽,即使这些资源的消耗没有 提高页面采集的高利用率。而且,Web 信息量浩如烟海并且快速的增长,通用搜索引擎面临这索引规 模、更新速度和个性化需求的多方面的挑战,这也对通用爬虫提出了更高的要求。为了准确、更专业的 爬行与主题相关的 Web 页面以便更好地满足来自不同层次、拥有不同背景的用户的需求,主题爬行应 运而生。§1-2 搜索引擎的发展及国内外研究现状Web(因特网)的基础建立于 70 年代发展起来的计算机网络群之上。它开始是由美国国防部资助 的称为Arpanet的网络,原始的Arpanet早已被扩展和替换了,现在由其后代Web所取代。第一个应用Web 类似技术的试验网络用了四台计算机,建立于 1969 年,在短短的几十年之间网络从当初的四台计算机发展到连接千家万户。据统计,截止到 2008 年 12 月 31 日我国网民数量达到 2.98 亿[6],由此可见
您可能关注的文档
- 基于有限元位移模式的数字图像相关方法及其应用分析-digital image correlation method based on finite element displacement mode and its application analysis.docx
- 基于有限状态自动机的多模式匹配算法分析-analysis of multi-pattern matching algorithm based on finite state automata.docx
- 基于有限元研究的喷丸式内孔强化设备分析-analysis of shot peening internal hole strengthening equipment based on finite element analysis.docx
- 基于有限元理论的并联髋关节试验机参数一体化分析-parameter integration analysis of parallel hip joint tester based on finite element theory.docx
- 基于有限状态自动机的中文多模式匹配算法分析-analysis of chinese multi-pattern matching algorithm based on finite state automata.docx
- 基于有限元研究的车门公差分配优化-optimization of vehicle door tolerance allocation based on finite element analysis.docx
- 基于有限元研究的客车座椅骨架结构设计持续改进的分析-analysis on continuous improvement of bus seat frame structure design based on finite element analysis.docx
- 基于有线网的酒店全业务接入研究-research on hotel full service access based on wired network.docx
- 基于有向加权网络的汽车制造供应网络风险评估分析-risk assessment and analysis of automobile manufacturing supply network based on directed weighted network.docx
- 基于有效教学理念的高中化学教学设计分析-analysis of senior high school chemistry teaching design based on effective teaching concept.docx
- 2025年农村电商创业产业链协同发展研究.docx
- 八年级(下)月考数学试卷(5月份)(拔尖卷)(考查范围:第16~19章)(华东师大版)(解析版).pdf
- 安徽省池州市2025-2026学年九年级上学期期中语文试题(含答案).docx
- 八年级(下)月考数学试卷(5月份)(拔尖卷)(考查范围:第16~19章)(人教版)(原卷版).pdf
- 八年级(下)月考数学试卷(5月份)(培优卷)(考查范围:第7~10章)(苏科版)(原卷版).pdf
- 2025年农村电商创业市场细分与定位策略分析.docx
- 2025年中国丹参中药饮片数据监测研究报告.docx
- 嘉定-2023中考二模道法试卷含答案.pdf
- 装备安全培训方案模板课件.pptx
- 广东省深圳市60校2025-2026学年九年级上学期期中语文试题(含答案).docx
最近下载
- 输煤事故案例总结发言.docx VIP
- 新四级强化辅导听力(新版)答案.pdf VIP
- 专业园地 优秀毕业生 沈阳职业技术学院优秀毕业生(张鹏松).ppt VIP
- 专业园地 优秀毕业生 沈阳职业技术学院优秀毕业生(李东).pptx VIP
- 生产部门管理评审报告.pptx
- 超星尔雅学习通《形势与政策》2025秋章节测试答案.docx VIP
- 专业园地 优秀毕业生 沈阳职业技术学院优秀毕业生(王达).pptx VIP
- 形势与政策(2025春)超星学习通章节测试、考试答案.docx
- 专业园地 优秀毕业生 沈阳职业技术学院优秀毕业生(寇希良).ppt VIP
- 培训效果评估分析报告及提升策略模板.doc VIP
原创力文档


文档评论(0)