- 0
- 0
- 约 14页
- 2016-11-25 发布于山西
- 举报
SEWM2007分类系统说明课件
SEWM2007分类系统说明 主要内容 分类系统模块结构 系统模块详解 系统运行环境介绍 展望与未来 系统模块详解 语料预处理 分词 特征提取 向量空间模型建立 分类训练与预测 语料预处理(1) 采用基于Java开源项目:HTMLParser 抽取网页主要内容 URL Title 链接锚文本等信息 Description keywords 语料预处理(2) 实验过程遇到问题: 针对语料编码方式的多样性,我们将GBK作为默认编码方式 依靠实验效果好坏,对网页不同区域内容设置不同权重,权重设置具有随机性,不稳定 锚文本收集仅收集链接文本,在20G语料中未实现扩展锚文本对分类效果的影响,后期打算增加源网页的优劣对锚文本准确程度的影响的考虑 分词 采用哈工大分词程序 增加部分停用词,词汇数量达到2040个 特征提取(1) CHI 分别计算词条与个各类别的CHI值,取最大值作为该词项的CHI值 ECE(期望交叉熵) 是一种基于概率的方法,交叉熵越大,对文本类别分布的影响越大 CHI+DF 使用DF移除低于一定阈值低频词,消除CHI对低频词的倚重,再用CHI从剩余词条中移除类别信息较低的噪音词,这样的词条通常平均分布于各个类别 特征提取(2) 向量空间模型建立 ITC是TF*IDF变形,使用词频的对数代替词频,减少了词频上的差异构成的影响 分类模型 LibSVM软件包 核函数选择 RBF
您可能关注的文档
- (GF-2012-0202)建设工程监理合同示范文本.doc
- (GF-2013-0201)建设工程施工合同示范文本.doc
- (II) 功能及系统容量 III 标准IV 推出前的准备工作.ppt
- -- “一材多用”的方法.ppt
- -- 晚唐诗歌创作成就.ppt
- ----康戈.ppt
- ---珍爱生命、关注安全高三1316班主题班会.ppt
- --2012年第7周2.13-2.19青岛市房地产市场周度简报.ppt
- --“创建以校为本教研制度建设基地”项目年度总结.ppt
- --《朝花夕拾》.ppt
- 2025年下半年小学教师资格考试简答题汇总.pdf
- 护理教学比赛资源整合.pptx
- 2022泰和安消防 JTGB-HM-TX3H01 JTGB-HM-TX3H02 TGB-HM-TX3H03 系列点型红外火焰探测器.docx
- 2025年驾驶证资格考试最新最全交通标志大全.pdf
- 护理教学理念:更新与发展.pptx
- 2025年新驾考科目一巧记速记口诀(全国通用).pdf
- 2025年一级建造师《项目管理》黄金预测考点【打印版】.pdf
- 证券公司高级管理人员资质测试章节练习-第一部分综合类第六章至七章:证券投资基金法、信托法.pdf
- 护理教学研究:方法与成果.pptx
- 麻纺车间设备更新准则.docx
原创力文档

文档评论(0)