SEWM2007分类系统说明课件.pptVIP

  • 0
  • 0
  • 约 14页
  • 2016-11-25 发布于山西
  • 举报
SEWM2007分类系统说明课件

SEWM2007分类系统说明 主要内容 分类系统模块结构 系统模块详解 系统运行环境介绍 展望与未来 系统模块详解 语料预处理 分词 特征提取 向量空间模型建立 分类训练与预测 语料预处理(1) 采用基于Java开源项目:HTMLParser 抽取网页主要内容 URL Title 链接锚文本等信息 Description keywords 语料预处理(2) 实验过程遇到问题: 针对语料编码方式的多样性,我们将GBK作为默认编码方式 依靠实验效果好坏,对网页不同区域内容设置不同权重,权重设置具有随机性,不稳定 锚文本收集仅收集链接文本,在20G语料中未实现扩展锚文本对分类效果的影响,后期打算增加源网页的优劣对锚文本准确程度的影响的考虑 分词 采用哈工大分词程序 增加部分停用词,词汇数量达到2040个 特征提取(1) CHI 分别计算词条与个各类别的CHI值,取最大值作为该词项的CHI值 ECE(期望交叉熵) 是一种基于概率的方法,交叉熵越大,对文本类别分布的影响越大 CHI+DF 使用DF移除低于一定阈值低频词,消除CHI对低频词的倚重,再用CHI从剩余词条中移除类别信息较低的噪音词,这样的词条通常平均分布于各个类别 特征提取(2) 向量空间模型建立 ITC是TF*IDF变形,使用词频的对数代替词频,减少了词频上的差异构成的影响 分类模型 LibSVM软件包 核函数选择 RBF

文档评论(0)

1亿VIP精品文档

相关文档