网页体裁自动识别研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网页体裁自动识别研究.doc

网页体裁自动识别研究   摘要:随着网络的飞速发展,网页数量急剧膨胀,近几年来更是以指数级进行增长,搜索引擎面临的挑战越来越严峻,很难从海量的网页中准确快捷地找到符合用户需求的网页。网页分类是解决这个问题的有效手段之一,基于网页主题分类和基于网页体裁分类是网页分类的两大主流,二者有效地提高了搜索引擎的检索效率。网页体裁分类是指按照网页的表现形式及其用途对网页进行分类。介绍了网页体裁的定义,网页体裁分类研究常用的分类特征,并且介绍了几种常用特征筛选方法、分类模型以及分类器的评估方法,为研究者提供了对网页体裁分类的概要性了解。   关键词:网页分类;网页体裁;特征选择;机器学习   中图分类号:TP301文献标识码:A文章编号2013)004000103   作者简介:王海洋(1989-),男,四川大学计算机学院硕士研究生,研究方向为数据挖掘与计算语言学。   0引言   近年来,互联网中网页数量激增,中文网页数量呈指数级增长。庞大的网页数量使得搜索引擎的任务更加艰巨,很难从网页中准确快捷地筛选出用户需求的网页。人们搜索万维网通常有一个明确的概念:他们知道他们正在寻找,他们知道哪种形式\[20\]。前者涉及到找到文件的内容,后者介绍其内容的展现形式。按网页体裁分类主要是基于网页的结构及其展现形式向用户提供更符合其需求的网页。本文简要介绍了网页体裁的定义及其与传统网页分类的异同,简要介绍了常用的特征选取和机器学习方法以及分类评价指标,并对目前网页体裁分类研究常用的分类特征进行了介绍。   1网页体裁分类概述   1.1网页体裁定义   多数英文字典通过特定的风格、内容以及表现形式将体裁定义为艺术、音乐或文学等。其中风格指的是写作的结构特征,内容是指文档的主题,表现形式则指的是内容的展现形式\[4\]。   目前对于网页的体裁仍没有明确的定义。Kessler\[6\]等人做了如下定义:体裁是通过交流上的目的或其它功能特性来定义的一种广泛的种类,定义并假设这些功能与某些官方的或者大众化的线索有关系,且这种类别是可扩展的。   1.2网页体裁分类   网页体裁分类是网页分类的一个分支\[1\]。传统的网页分类多数从网页的内容角度出发对网页进行分类;而网页体裁分类主要从网页的功能角度出发对网页进行分类。网页的功能在网页设计中主要体现在网页的结构和展现形式方面,网页体裁分类在特征选取不单纯考虑网页的文本信息,更侧重于网页的结构方面特征。在下文中将对网页体裁分类常用的特征进行介绍。   2体裁分类常用特征研究   目前已经有多种类型特征在网页自动体裁分类中得到了应用。用于网页分类的网页特征必须在类别之间具有一定的分辨性。本文将目前常用的特征归纳为文本特征、结构特征、URL特征三大类。   2.1文本特征   传统的网页分类中,多数将文档看成词袋的形式,根据特征选取方法选取对类别具有分辨的词汇作为特征,这些词汇是文档主题的主要体现。而在网页体裁分类中,更偏向于选取可以表现网页文本结构特征。   文本的平均字长、句长、模糊字串模式、频繁字串等特征往往能反映一个此类文本的常用风格,通常这些特征往往对于网页体裁类别具有一定的分辨性,也是较为常用的特征\[2,6,14,15\]。实验表明,该类特征在写作风格不同的网页类别间具有很好的分辨作用。   除此外Kanaris\[5\]提出了基于n元语的低维特征。文中提出了一个全自动抽取结构的特征方法,包括常用来分辨网页体裁的标签和n元语信息对网页进行分类,实验表明具有较好的效果,并且该方法由于不涉及到分词等预处理操作,不受语言影响。Yunhyong Kim\[18\]用term在整篇网页中的分布信息来描述网页的结构信息以及网页的写作风格。在文中Yonhyong Kim用term在网页中的首位置、末位置以及平均出现周期律作为该term的特征分量。实验结果表明,该方法要好于采用词频的方法。   2.2结构特征   网页的结构信息指的是网页展现结构上的特征。不同体裁类别的网页,由于其功能的不同,在网页的设计上往往具有很大的差别,比如新闻类网页和博客类网页。通常采用HTML关键标签作为网页的结构特征\[5,18\]。在网页体裁分类中,HTML标签特征通常是必不可少的特征之一。   2.3URL特征   网页的URL信息往往含有很多重要的分类信息,其中一些对不同类别间的网页具有一定的区分性,比如URL中的关键字串、时间信息等。MinYen KAN\[7\]对URL中包含的特征进行了详细的研究,仅依靠URL中含有的特征构造分类器,该方法在网页分类的效率上有了很大的提升。Myriam Abramson等\[8\]也仅采用了URL的信息,使用了一种级联分类

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档