基于页面标签网页分类研究.docVIP

  • 6
  • 0
  • 约3.45千字
  • 约 8页
  • 2018-08-31 发布于福建
  • 举报
基于页面标签网页分类研究

基于页面标签的网页分类研究   基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No   [摘 要] 针对Html网页结构的特点,网页的不同标记信息所辖的特征项包含不同的类别信息,通过抽取网页不同标记信息内的特征项并赋予不同权重来表明其重要程度。实验证明该方法比单独依赖网页内容信息的分类在效果上有所提高。   [关键词] 网页分类 特征项 权重计算      一、引言   随着互联网技术的不断发展,web网已经成为一个巨大的信息源,成为人们获取信息的重要来源。由于Web网页中蕴藏的信息资源内容广泛,形式各异,有效组织和管理这些资源尤为重要,通过网页的自动分类可以更好地对其进行组织和管理,加快信息检索的速度。然而,web页面中存在着大量的HTML格式的无结构数据和少量XML格式的半结构数据。一方面,这些结构性信息常是页面中包含的非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。另一方面,这些结构性信息又包含着重要的分类信息,利用好这些信息能有效提高分类效果。   本文对网页的标记进行了分类,对位于不同标记内的特征项赋予不同的权重系数,在分类过程中重新调整其权值,以期改善分类器的性能。   二、网页特征分析   与纯文本数据不

文档评论(0)

1亿VIP精品文档

相关文档