山东大学-中文web信息检索论坛.pptVIP

  • 7
  • 0
  • 约小于1千字
  • 约 10页
  • 2018-01-25 发布于天津
  • 举报
分类韩晓晖杜言琦陈竹敏报告人陈竹敏主要模块解压模块预处理模块分词模块学习模块分类模块实现过程训练特征提取信息增益权重计算特征维数实现过程分类模型权重分配权重分配运行环境硬件平台机内存硬盘操作系统编程语言谢谢山东大学实现过程解压预处理分词特征选择二次调整最终结果训练集分类模型特征表示分类结果实现过程解压每个解成一个预处理标记数量有限按标记意义分类权重分配去掉不要的找到想要的分为一些页面存在乱码问题分词最大正向匹配分词法实现过程二次调整针对今年的特点绝对随机选取的页面页面的质量比以往的页面质量差很多

SEWM2007 Web分类 韩晓晖,杜言琦,陈竹敏 报告人:陈竹敏 2007.3 主要模块 解压模块 预处理模块 分词模块 学习模块 分类模块 实现过程-3 训练-特征提取 信息增益IG-Information Gain 权重计算 tf*idf 特征维数:10000 实现过程-4 分类模型 KNN K=25 权重分配-title:content=2:1 SVM SVMLight 权重分配-title:content=2:1 运行环境 硬件平台: Lenovo PC机; CPU:2.2G; 内存:0.5G; 硬盘:80G 操作系统: Windows 编程语言: Java VC 谢谢! * * 山东大学 实现过程 CWT20G 解压 预处理 分词 特征选择 二次调整 最终结果 训练集 分类模型 特征表示 分类结果 实现过程-1 解压-每个page.dat解成一个page.dat 预处理 HTML标记数量有限?按标记意义分类+权重分配 1.去掉不要的 2.找到想要的 √ 分为:title、content 一些页面存在乱码问题 分词-最大正向匹配分词法 实现过程-5 二次调整 针对今年的特点 绝对随机选取的页面 页面的质量比以往的页面质量差很多, 也存在垃圾网页,以及分类结果为空的情况 将相似度小于给定阈值(0.1)的全部类别设为空 将没有识别出的文档(乱

文档评论(0)

1亿VIP精品文档

相关文档