- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主题搜索网络爬的设计与研究
摘要
摘要
随着因特网规模的不断扩大,网络用户越来越依靠搜索引擎等网络工具来
从网络上获取他们想要的信息。然而,通用搜索引擎面对日益增长的网络规模
以及人们对个性化信息检索的需要往往力不从心。主题搜索引擎,亦称垂直搜
索引擎通过把搜索应用限制在特定的主题上,提供个性化,专业化的搜索服务,
提高了服务质量,同时也节约了计算及网络资源。
论文围绕网页和主题的特征提取方法、特征权重计算方法以及链接上下文
长度对主题网络爬虫性能影响的问题开展了以下的研究工作:
针对经典的MI互信息方法倾向于选择低频词条而CHI统计方法倾向于选
择高频词条的问题,提出一种新的EXM方法,该方法加入类内词频和分散度
因素,把两者结合。实验结果表明新方法能有效提升文本分类的准确率达5%至
12%,可用于网络爬虫主题特征提取。
针对二元特征提取优势率算法OR由于忽视词频因素而在中低维数情况下
性能较差的问题,提出EOR算法。该算法引入了类内词频及分散度因素,提升
了中低维数下文本分类的准确度5%左右,可以有效降低文本向量的维数。把
EOR特征提取过程中计算得到的词条EOR分值与词频TF结合得到特征词权重
计算方法TF.EOR。实验表明,该方法比传统TF-IDF能提升网络爬虫抓取精确
度4%左右,与同类型的TF.MI和TF.CHI相比也略有优势。
应用EOR特征提取方法和TF.EOR权重计算方法改造通用网络爬虫
Search及Larbin原
题相关网页,其抓取准确率优于朴素最佳优先搜索、Shark
型。在Tlarbin平台上,对URL上下文作为URL相关度预测因子对爬虫性能的
影响做了定量分析。实验结果表明,URL上下文在考虑父网页相关度因素的情
况下对爬虫性能基本没有影响,而在不考虑父网页相关度时随着长度增加能不
断改进爬虫的抓取准确率。
关键词: 搜索引擎网络爬虫主题搜索链接上下文特征提取权重计算
Abstract
Abstract
withthe of onlineincreasesin
Internet,information
Along scaling explosive
to becomesevenmoredifficultforsurfersto what
way,thankswhich,it get they
wantfromonline.Everasaneffective search are
way,general
enginesalwaysbeing
disabledduetothecontinuous of as
wellsurfer’Sdemandin
expansionnetwork,as
search.Anotherchoiceis search search
personalized topical engines,say,topical
are in informationIt features
engines,which retrieving
advantageous topical
and servicefor
providingpr
文档评论(0)