SEWM2007分类系统说明课件.pptVIP

下载本文档

0
0
约 14页
2016-11-25 发布于山西
举报

SEWM2007分类系统说明课件.ppt

SEWM2007分类系统说明课件

SEWM2007分类系统说明主要内容分类系统模块结构系统模块详解系统运行环境介绍展望与未来系统模块详解语料预处理分词特征提取向量空间模型建立分类训练与预测语料预处理（1）采用基于Java开源项目：HTMLParser 抽取网页主要内容 URL Title 链接锚文本等信息 Description keywords 语料预处理（2）实验过程遇到问题：针对语料编码方式的多样性，我们将GBK作为默认编码方式依靠实验效果好坏，对网页不同区域内容设置不同权重，权重设置具有随机性，不稳定锚文本收集仅收集链接文本，在20G语料中未实现扩展锚文本对分类效果的影响，后期打算增加源网页的优劣对锚文本准确程度的影响的考虑分词采用哈工大分词程序增加部分停用词，词汇数量达到2040个特征提取（1） CHI 分别计算词条与个各类别的CHI值，取最大值作为该词项的CHI值 ECE（期望交叉熵）是一种基于概率的方法，交叉熵越大，对文本类别分布的影响越大 CHI+DF 使用DF移除低于一定阈值低频词，消除CHI对低频词的倚重，再用CHI从剩余词条中移除类别信息较低的噪音词，这样的词条通常平均分布于各个类别特征提取（2）向量空间模型建立 ITC是TF*IDF变形，使用词频的对数代替词频，减少了词频上的差异构成的影响分类模型 LibSVM软件包核函数选择 RBF

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

SEWM2007分类系统说明课件.pptVIP