- 1
- 0
- 约1.59千字
- 约 19页
- 2017-03-04 发布于北京
- 举报
华南木棉中文网页分类器 广东省计算机网络重点实验室 李嘉林 陈胜荣 陈彬 丁丹 魏本洁 目录 系统模块 系统流程 测试结果 总结与展望 模块结构 网页预处理 Html去噪 删去网页中的html Anchor Text 提取 对每篇文档,在进行html去噪的同时,提取文档的In-link 和Out-link Anchor Text, 中文分词 使用中科院的开源分词软件ICTCLAS,对每份文档的全文、In-link Anchor Text、 Out-link Anchor Text进行分词 特征选取 禁用词表 预定义禁用词表,将禁用词表中出现的词从文档的特征向量中删去。 词性选择 基于ICTCLAS的分词结果,我们只特定词性标注的词作为特征项。 信息增益 对数据集进行特征降维,压缩特征空间。 分类算法 特征项权值 使用tf*idf算法对特征项赋权值 对Anchor Text中出现的特征项进行加权 简单贝叶斯 支撑向量机 使用了SVMlight算法 分类结果合并 不同的分类算法在不同的类别上的性能具有差异,综合各分类器的的分类结果,改进最终的分类效果。 目录 系统模块 系统流程 测试结果 总结与展望 系统流程 目录 系统模块 系统流程 测试结果 总结与展望 测试结果 Anchor Text 的权值设置 使用tf*idf算法对特征项赋权值 log(tf
原创力文档

文档评论(0)