- 5
- 0
- 约2.11千字
- 约 16页
- 2017-08-17 发布于天津
- 举报
网页净化模块。.ppt
SEWM2006中文网页分类评测参赛系统说明 北京大学 信息管理系 税敏 程煜华 侯建彬 王丹 祁德君 2006.7 系统模块结构 从功能上看,该分类系统实现了网页净化、中文分词、特征提取、分类、结果评测等功能。其中,系统的四个主要的功能模块是: 1、网页净化模块。该模块去除了网页中的“噪音”内容,保留了和网页主题相关的文本内容。 2、中文分词模块。该模块将网页净化后的文本转换成特征词项的集合。 3、特征提取模块。该模块从中文分词得到的词集中选取最能代表网页主题内容的一部分词语,形成网页的特征向量表示。 4、分类模块。该模块通过分类算法计算网页特征向量和类之间的相似度,最后确定网页所属的类别。 各模块主要算法 1、网页净化模块 对网页编码格式进行装换和统一 分析网页结构,去除超链,标签,Script代码,Style代码 保留正文中的英文、数字及汉字部分,其余部分全部去除 对于保留下来的标题和正文部分,按照4:1的比例分配权重 2、分词模块 在训练集的处理阶段,采用了中科院的切词系统进行分词 由于中科院切词系统非常的不稳定,在处理待分网页时,利用先前产生的特征项词表,自己开发了采用逆序最大最长匹配算法的切词系统 3、特征提取模块 前期试验了Df、信息增益、互信息等多种方法,根据试验比较,采用信息增益提取特征项 按信息增益值从大到小的顺序对所有词语进行了排序,然后从中取出了前20%的词语,并去除了其中的数字和英文,将剩下的词语作为提取的特征项 经过比较,最后选取tf*idf方法对每一个特征项进行了加权 4、分类模块 4.1 SVM分类器 4.2 KNN分类器 4.3 两种分类器的结合 4.1 SVM分类器 在实现SVM分类模型时,我们采用了台湾大学的LibSVM软件包,选取了Libsvm-errorcode工具。 我们选取了RBF核函数,选取了scale方法、调整了train参数、predict参数。然后,我们测试了模型中的两个参数c和g,首先用大步长分别进行测试,再基于python的grid.py进行了局部的cross-validation,最后得到了最优的c和g的值。 4.2 KNN分类器 K=15:对10到20之间的K值进行了验证,发现15是出现峰值 相似度:余弦相似度 相似度加权: 计算文档与每个训练文档相似度是使用了相似度加权 设置特征项权重的阈值: 对于每篇文档,将权重低于某阈值特征项舍去。原因在于余弦相似度是全局相似度,权重极低的特征项对结果影响非常小,舍去可大大提高分类速度,但对分类效果影响极小。 建立倒排表 全局相似度;权重极大的项影响相似度,因此每篇训练文档按照其中权重大于一定阈值的特征建立倒排表;待分文档按照同样阈值选择所包含特征项,查找倒排表,生成候选项。然后从中确定K-NN。此举也大大提高了分类速度,但对分类效果影响极小。 4.3 两种分类器的结合 在分别对kNN和SVM进行改进和参数调整之后,我们通过实验发现运用两种模型进行分类所得到的结果存在一定的互补性。因此,我们在分类时对两者进行了结合,共采用了三种方法(均以数据集1为例): 两种分类器结合方法一 采用分类器SVM对测试集进行分类,分别算出测试文档属于各个类别的概率,取概率最大的前两个类别计算概率差值,如果差值较大,我们认为分准率越高。然后按照这个概率差值differ对待分文档排序。确定一个阈值s。用分类器SVM对differs的文档集进行分类,用分类器KNN对differs的文档集进行分类。综合得出的结果,可以得到最优的分准率。 该方法分准率可以提高0.2个百分点。 两种分类器结合方法二 首先用分类器SVM对测试集进行分类,并计算出各文档属于给定类别的概率并排序。将排序后的文档划分成n个部分,对每个部分分别用分类器SVM计算出分准率PSi(i = 1,2,……,n),以及分类器KNN计算出分准率PKi(i = 1,2,……,n),当PSi=PKi时,则第i部分的文档采SVM进行分类,反之则采用KNN进行分类。 我们取n = 20,第1,4,7部分采用KNN,其它部分采用SVM。分准率可以提高0.47个百分点 两种分类器结合方法三 对于同一个网页p,用kNN进行分类得到一个类别c1,p与c1之间的相似度值s1;用SVM进行分类得到一个类别c2,p与c2之间的相似度值s2。 在具体实现中,考虑到KNN和SVM权值计算方式的差别,我们将s2扩大到1.11倍:s2 = 1.11* s2。比较s1和s2, 如果s1=s2,则将c1作为网页p的分类结果; 如果s1s2,则将c2作为网页p的分类结果。 该方法分准率可以提高大概0.7个百分点。 The End * 分类模块 特征提取模块 中文分词模块 网页净化模块 训练集1 格式转换 CWT2
您可能关注的文档
- 第二部分、选址-搜铺网.doc
- 第五章基因频率与基因型频率.doc
- 第五章液压与气压传动的控制调节元件51概述液压与气压传动的控制.ppt
- 第八章文件纪录管理系统.doc
- 第八章网络安全-教工FTP主页.doc
- 第六章 数字信号的载波传输《通信原理课件》.ppt
- 第六章联立方程计量经济模型理论方法Theoryand-计量经济学.ppt
- 第十二章南亚-南一.ppt
- 第十六章量刑.ppt
- 第十章AD与DA转换电路.ppt
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
最近下载
- 医院医养结合功能区设计方案.docx
- 老年人防诈骗宣传案例分析报告.docx VIP
- 聚羧酸减水剂msds报告.docx
- 个人信用报告模板简版带水印可编辑2025年9月新版.pdf VIP
- QBNM-PS-0001—2019 汽车车身油漆涂层标准.pdf VIP
- 2025铁路旅客列车餐饮服务卫生规范.pdf VIP
- 奉节脐橙电子商务发展中存在的问题及对策研究.docx VIP
- 城中村改造建设项目可行性研究报告.docx VIP
- 2024党员围绕“学习贯彻党的创新理论、党性修养提高、联系服务群众、党员发挥先锋模范作用、铸牢中华民族共同体意识方面”5个方面组织生活会发言材料多篇.docx VIP
- 《养老之女性篇》课件.pptx VIP
原创力文档

文档评论(0)