- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于多分类器组合择优方法的主题爬行分类策略-图书情报工作.PDF
第57卷 第14期 2013年7月
基于多分类器组合择优方法的主题爬行分类策略
■ 乔建忠
[摘 要]针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局
限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排
名,从中选择最优分类器分类的策略,并开展在多个主题抓取任务下的分类实验,比较每种分类算法的准确率
和组合后的平均分类准确率以及对分类效率等评价指标的综合分析,结果证明该策略对领域局域性有所克服,
普适性较强。
[关键词]主题爬行技术 主题爬行器 网页分类 分类算法 多分类器组合 分类准确率 分类效率
[分类号]G250.73
DOI:10.7536/j.issn.0252-3116.2013.14.019
1 引 言 域。主题爬行技术中网页分类策略出现单一策略向多
策略组合发展的趋势。例如基于机器学习的网页分类
主题爬行技术(focusedcrawling)中的分类和搜索 策略由一种机器学习算法向两种或两种以上的机器学
是两个关键技术。因分类质量将直接影响主题爬行器
习算法互补的策略发展。基于朴素贝叶斯分类的网页
(focusedcrawler)能否向着高相关度Web继续爬行,故 分类算法是目前较经典的网页分类算法,也被证明是
其显得尤为重要。如何判断一个网页内容是否与主题 一种快速、高效的相关度评估算法[1-3],采用该算法的
相关,可理解成一个网页分类问题。对于待爬行或己 主题爬行技术也被称作“Bayescrawling”。M.Diligenti
下载的网页,主题爬行器可在获取其文本内容后借用 [4]
等人 设计的“上下文主题爬行器(CFC)”的链接层
文本挖掘技术来实现网页的分类。面对多主题分类问 级结构中的每一层都使用一个经改进的朴素贝叶斯分
题,单一分类算法具有普适性不强的特点。为避免单 类器,是一种基于关键词的TF IDF特征的单独采用
一分类算法的领域偏好可能性,本文提出一种同时将 贝叶斯分类算法并进行离线训练 的方法。S.
多种强分类算法组合在一起,主题爬行器动态选择当 [5]
ChakrabartiS等人 则增加了对相关度的在线反馈,利
前主题爬行任务最适合的分类器实施分类的策略,利 用开放目录Dmoz中的482个分类主题作为分类的正
用原型系统 CMSCrawler在自建类目体系下的多个主 例,对已下载的相关网页进行在线学习和分类。
题上进行采集、训练和分类实验,考察单个分类器与组 目前,单独采用朴素贝叶斯算法的主题爬行技术
合后的分类器在分类准确率、分类效率上的对比数据, 已不多见,多数都增加了其他机器学习方法以改善性
证明多分类器组合择优策略在主题爬行器实际工作中 [6]
能。在分类算法选择方面,J.Johnson等人 、G.Pant
能较好地平衡分类准确率与效率,达到取长补短的效 [7-8]
等人 在其研究中专门对比了支持向量机和朴素贝
果,面对多主题分类问题普适性较强。与此同时需要 叶斯分类算法在主题爬行中的性能,用实验证明基于
解决分类器的选取、训练和在线择优等问题。 线性SVM分
文档评论(0)