大连理工信息检索研究室
SEWM2007分类系统说明 主要内容 分类系统模块结构 系统模块详解 系统运行环境介绍 展望与未来 系统模块详解 语料预处理 分词 特征提取 向量空间模型建立 分类训练与预测 语料预处理(1) 采用基于Java开源项目:HTMLParser 抽取网页主要内容 URL Title 链接锚文本等信息 Description keywords 语料预处理(2) 实验过程遇到问题: 针对语料编码方式的多样性,我们将GBK作为默认编码方式 依靠实验效果好坏,对网页不同区域内容设置不同权重,权重设置具有随机性,不稳定 锚文本收集仅收集链接文本,在20G语料中未实现扩展锚文本对分类效果的影响,后期打算增加源网页的优劣对锚文本准确程度的影响的考虑 分词 采用哈工大分词程序 增加部分停用词,词汇数量达到2040个 特征提取(1) CHI 分别计算词条与个各类别的CHI值,取最大值作为该词项的CHI值 ECE(期望交叉熵) 是一种基于概率的方法,交叉熵越大,对文本类别分布的影响越大 CHI+DF 使用DF移除低于一定阈值低频词,消除CHI对低频词的倚重,再用CHI从剩余词条中移除类别信息较低的噪音词,这样的词条通常平均分布于各个类别 特征提取(2) 向量空间模型建立 ITC是TF*IDF变形,使用词频的对数代替词频,减少了词频上的差异构成的影响 分类模型 LibSVM软件包 核函数选择 RBF
您可能关注的文档
最近下载
- D-Z-T 0462.3-2023 矿产资源“三率”指标要求 第3部分:铁、锰、铬、钒、钛(正式版).docx VIP
- 网络系统建设与运维中级 第7章 IPv6协议v3.2.pptx VIP
- 电子科技大学-2018.6月计算复杂性考试.docx VIP
- 吊篮施工计算书.pdf VIP
- 基于PLC的三工位钻床工作台控制系统设计.pptx VIP
- 化工仪表及自动化课件共58张PPT).pptx VIP
- 光固化胶水知识讲座课件.ppt VIP
- EN_IEC_61800-3-2018 可调速电力驱动系统第3部分:EMC要求和具体测试方法.pdf VIP
- 运动性肌肉损伤诊疗专家共识(2026版).docx
- AKH-0.66-200X50II低压电流互感器规格书.pdf VIP
原创力文档

文档评论(0)