SEWM2007中文网页分类评测参赛系统说明1248.pptVIP

  • 2
  • 0
  • 约1.71千字
  • 约 13页
  • 2018-06-23 发布于湖北
  • 举报

SEWM2007中文网页分类评测参赛系统说明1248.ppt

SEWM2007中文网页分类评测参赛系统说明1248.ppt

信息管理系 * bhmjk,jh n,jljl * bhmjk,jh n,jljl * bhmjk,jh n,jljl * bhmjk,jh n,jljl * bhmjk,jh n,jljl * bhmjk,jh n,jljl * bhmjk,jh n,jljl * bhmjk,jh n,jljl * bhmjk,jh n,jljl * bhmjk,jh n,jljl * bhmjk,jh n,jljl * bhmjk,jh n,jljl * bhmjk,jh n,jljl SEWM2007中文网页分类评测参赛系统说明 北京大学信息管理系 小组成员:王建冬 田飞佳 内容提要 分类系统模块结构 各模块主要算法 系统运行环境介绍 分类系统模块结构 分类系统模块结构 系统设计整体思路 对训练集(包括训练集1和2)进行网页净化 然后对净化后的中文文本进行分词,接着从切分后的文本中选取最合适的特征向量表示文档,再利用分类模型对特征向量进行处理,确定其类别。 根据评测程序比较分类结果与网页本身所属的类别,并通过调整特征向量提取和分类模型的算法,以及调整参数的设定,使测试集评测指标达到最优。在评测指标达到最优以后,也就确立了分类器。 系统模块详解 网页净化模块 中文

文档评论(0)

1亿VIP精品文档

相关文档