SEWM 中文网页分类评测参赛系统说明.pptVIP

  • 1
  • 0
  • 约1.49千字
  • 约 13页
  • 2015-08-15 发布于湖北
  • 举报
SEWM 中文网页分类评测参赛系统说明.ppt

SEWM2007中文网页分类评测参赛系统说明 北京大学信息管理系 小组成员:王建冬 田飞佳 内容提要 分类系统模块结构 各模块主要算法 系统运行环境介绍 分类系统模块结构 分类系统模块结构 系统设计整体思路 对训练集(包括训练集1和2)进行网页净化 然后对净化后的中文文本进行分词,接着从切分后的文本中选取最合适的特征向量表示文档,再利用分类模型对特征向量进行处理,确定其类别。 根据评测程序比较分类结果与网页本身所属的类别,并通过调整特征向量提取和分类模型的算法,以及调整参数的设定,使测试集评测指标达到最优。在评测指标达到最优以后,也就确立了分类器。 系统模块详解 网页净化模块 中文分词模块 特征项提取模块 分类模块 网页净化模块 提出了一个基于开源项目Htmlparser的同层次 表间比较迭代算法 。 抽取网页主要内容及权值: 标题(title) 权值为8 正文 (content) 权值为6 URL锚文本 权值为3 网页进化算法(对于正文) 对网页结构进行分析,认为网页内容块无论形式如何,必定是存放在某一个表格中,对于不在表格中的部分,将其看作一个表格,便于处理。 根据表格的嵌套关系对每个表格进行分级,

文档评论(0)

1亿VIP精品文档

相关文档