基于url及上下文的并行分块处理主题爬虫研究-计算机应用技术专业论文.docx

基于url及上下文的并行分块处理主题爬虫研究-计算机应用技术专业论文.docx

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于url及上下文的并行分块处理主题爬虫研究-计算机应用技术专业论文

指导小组成员名单张世永教授钟亦平教授吴承荣副教授吴杰副教授录顧1A BSTRA CT2第一章引言31.1研究目的与意义31.2 研究背景41.3 国内外研究现状51.3.1基丁■关键词的上题爬虫51.3.2基丁页内祚的爬虫71.3.3 基丁涟按特征的fe题爬虫91.3.4基丁?其他好认的主题爬虫121.3.5 主题孤岛W 题131.3.6 隧迠技术14第二章HADOOP分布式平台与NUTCI1概述152.1Hadoop分布式平台152.1.1总休架构152.1.2MapReduce分布式计算162.1.3 HDFS分布式文件系统182.2 Nutch丌源搜索引擎212.2.1 爬虫投块222.2.2WW1-机制22第三章基于URL及上下文并行分块处理的主题爬虫243.1 系统架构与流程243.2 主题描述词概括与扩展263.3 基于URL及上下文的分块处理主题相关度分析273.丄1 从r分块的JH r处押28:}.:i.2 LRL jI.卜义的分机293.4 孤岛问题的解决35第四章基于URL及上下文的并行分块处理主题爬虫实现3824.1初始化模块384.2 待抓取列表生成模块404.3 页面爬行模块424.4 主题相关度分析模块454.5 待爬行URL列表更新模块484.6 存储数据结构49第五章性能分析与比较515.1试验环境515.1.1 软件硬件环境515.1.2 试验、「台搭让515.1.3 实验数据535.2 系统测试545.2.1性能测试545.2.2 nj?调参数设H57第六章总结与展望666.1本文工作总结666.2未来工作展望67猶71攻读硕士期间发表的论文72K 门-人学烛|:学位论文摘要木论文结合了实体分祈、网络结构分析、隧道技术于一体并加以兑法上的改进,提出了基于URL及上下文并行分块处理的主题爬虫算法。本算法对主题进行了实体分析,根据知网的义元关系,将主题描述词进行扩展,作为主题相关度分析兑法的输入。主题相关度分析算法将页而分成多个含有唯一链接的数据块,在网络结构与文本内容两个方面并行分析每个输入数据块中的链接,根据链接本身结构与父页而的相符度而得出网络结构相关的评分,根据数据块中主题描述词的词频与位置信息得出该链接在文木内容方而的评分。通过可调参数a调整两个因素在总分屮的重要程度,得出此链接的主题相关度总评分。若总分大于设定阈值,则判定此数据块中的链接是与主题相关的。本主题爬虫在主题相关性分析中加入了改进的逐级过滤隧道技术。从一?定隧道层数范_,以设定的评分阈值过滤小于此隧道阈值的链接,挑选出真正的前沿性链接,避免无关网页的抓取,使爬虫在适当的性能保证下提高召回率。实验结果充分验证了木论文提出的丛于URL及上下文的并行分块处现主题爬虫足个巧灵活性、^准确度、适用于敁大爬行层数为4-6的小型主题爬虫。关键字:主题爬虫,链接分析,本体描述,并行处理1y i」.人屮她I?学位[仓义A bstractCombiningthe ontologyanalysis,networktopologyanalysis,andtunnelingtechnologyforalgorithm improve,Iproposeparallelblockprocessingfocusedcrawlerbased on URL and context.T hisalgorithmexpandsthetopickeywordsbased onHownetastheinputofthematicrelevance.Thethemecorrelationanalysisalgorithmdividesthepageintom ultipledatablockcontainingonelink,andparallellyanalizesthe link in each blockinthe aspects ofnetwork structure and textcontext.Network-topologyscoreisderivedaccordingtothesimilarityofthelinkstructureanditsparentlinkstructure. Contextscoreofthelinkiscalculateddepending on thefrequencyand locationinformationoftopickeywordsinthecontextaroundthislink.Thetotalscoreisderivedbytheadjustableparameteratobalancetheeffectoftwofactors.Thelinkisjudgedtoberelatedtot

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档