- 7
- 0
- 约小于1千字
- 约 10页
- 2018-01-25 发布于天津
- 举报
分类韩晓晖杜言琦陈竹敏报告人陈竹敏主要模块解压模块预处理模块分词模块学习模块分类模块实现过程训练特征提取信息增益权重计算特征维数实现过程分类模型权重分配权重分配运行环境硬件平台机内存硬盘操作系统编程语言谢谢山东大学实现过程解压预处理分词特征选择二次调整最终结果训练集分类模型特征表示分类结果实现过程解压每个解成一个预处理标记数量有限按标记意义分类权重分配去掉不要的找到想要的分为一些页面存在乱码问题分词最大正向匹配分词法实现过程二次调整针对今年的特点绝对随机选取的页面页面的质量比以往的页面质量差很多
SEWM2007Web分类 韩晓晖,杜言琦,陈竹敏 报告人:陈竹敏 2007.3 主要模块 解压模块 预处理模块 分词模块 学习模块 分类模块 实现过程-3 训练-特征提取 信息增益IG-Information Gain 权重计算 tf*idf 特征维数:10000 实现过程-4 分类模型 KNN K=25 权重分配-title:content=2:1 SVM SVMLight 权重分配-title:content=2:1 运行环境 硬件平台: Lenovo PC机; CPU:2.2G; 内存:0.5G; 硬盘:80G 操作系统: Windows 编程语言: Java VC 谢谢! * * 山东大学 实现过程 CWT20G 解压 预处理 分词 特征选择 二次调整 最终结果 训练集 分类模型 特征表示 分类结果 实现过程-1 解压-每个page.dat解成一个page.dat 预处理 HTML标记数量有限?按标记意义分类+权重分配 1.去掉不要的 2.找到想要的 √ 分为:title、content 一些页面存在乱码问题 分词-最大正向匹配分词法 实现过程-5 二次调整 针对今年的特点 绝对随机选取的页面 页面的质量比以往的页面质量差很多, 也存在垃圾网页,以及分类结果为空的情况 将相似度小于给定阈值(0.1)的全部类别设为空 将没有识别出的文档(乱
您可能关注的文档
最近下载
- 石城县志(卷之1-9)蒋廷桂 主修,光绪18[1892]-7.pdf VIP
- B∕T 37758-2019 高矿化度矿井水处理与回用技术导则(高清可复制).pdf VIP
- 2025年四川教师招聘考试(数学专业知识)历年参考题库含答案详解.docx VIP
- 打屁股作文共九篇.doc VIP
- (2026年)实施指南《NBT 11030—2022 煤矿低浓度瓦斯发电机组通用要求》(2025年)实施指南.pptx VIP
- 【毕业论文致谢结尾】毕业论文致谢收尾.docx VIP
- (2026年)实施指南《NBT 51026-2014 煤矿矿井水深度处理 反渗透工艺技术要求》.pptx VIP
- 自动跟随智能小车的定位与跟随系统设计.doc VIP
- NSW毕设改.docx VIP
- 湖北武汉四中2025-2026学年高三下学期2月月考生物试卷 .docx VIP
原创力文档

文档评论(0)