中文分词特征提取分类-Read.PPT

下载文档 降价啦

80
0
约2.1千字
约 16页
2018-05-19 发布于天津
举报
版权申诉
保障服务

中文分词特征提取分类-Read.PPT

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文分词特征提取分类-Read

SEWM2006中文网页分类评测参赛系统说明北京大学信息管理系 2006.7 系统模块结构从功能上看，该分类系统实现了网页净化、中文分词、特征提取、分类、结果评测等功能。其中，系统的四个主要的功能模块是： 1、网页净化模块。该模块去除了网页中的“噪音”内容，保留了和网页主题相关的文本内容。 2、中文分词模块。该模块将网页净化后的文本转换成特征词项的集合。 3、特征提取模块。该模块从中文分词得到的词集中选取最能代表网页主题内容的一部分词语，形成网页的特征向量表示。 4、分类模块。该模块通过分类算法计算网页特征向量和类之间的相似度，最后确定网页所属的类别。各模块主要算法 1、网页净化模块对网页编码格式进行装换和统一分析网页结构，去除超链，标签，Script代码，Style代码保留正文中的英文、数字及汉字部分，其余部分全部去除对于保留下来的标题和正文部分，按照4:1的比例分配权重 2、分词模块在训练集的处理阶段，采用了中科院的切词系统进行分词由于中科院切词系统非常的不稳定，在处理待分网页时，利用先前产生的特征项词表，自己开发了采用逆序最大最长匹配算法的切词系统 3、特征提取模块前期试验了Df、信息增益、互信息等多种方法，根据试验比较，采用信息增益提取特征项按信息增益值从大到小的顺序对所有词语进行了排序，然后从中取出了前20%的词语，并去除了其中的数字和英文，将剩下的词语作为提取的特征项经过比较，最后选取tf*idf方法对每一个特征项进行了加权 4、分类模块 4.1 SVM分类器 4.2 KNN分类器 4.3 两种分类器的结合 4.1 SVM分类器在实现SVM分类模型时，我们采用了台湾大学的LibSVM软件包，选取了Libsvm-errorcode工具。我们选取了RBF核函数，选取了scale方法、调整了train参数、predict参数。然后，我们测试了模型中的两个参数c和g，首先用大步长分别进行测试，再基于python的grid.py进行了局部的cross－validation，最后得到了最优的c和g的值。 4.2 KNN分类器 K=15：对10到20之间的K值进行了验证，发现15是出现峰值相似度：余弦相似度相似度加权：计算文档与每个训练文档相似度是使用了相似度加权设置特征项权重的阈值：对于每篇文档，将权重低于某阈值特征项舍去。原因在于余弦相似度是全局相似度，权重极低的特征项对结果影响非常小，舍去可大大提高分类速度，但对分类效果影响极小。建立倒排表全局相似度;权重极大的项影响相似度，因此每篇训练文档按照其中权重大于一定阈值的特征建立倒排表；待分文档按照同样阈值选择所包含特征项，查找倒排表，生成候选项。然后从中确定K-NN。此举也大大提高了分类速度，但对分类效果影响极小。 4.3 两种分类器的结合在分别对kNN和SVM进行改进和参数调整之后，我们通过实验发现运用两种模型进行分类所得到的结果存在一定的互补性。因此，我们在分类时对两者进行了结合，共采用了三种方法（均以数据集1为例）：两种分类器结合方法一采用分类器SVM对测试集进行分类，分别算出测试文档属于各个类别的概率，取概率最大的前两个类别计算概率差值，如果差值较大，我们认为分准率越高。然后按照这个概率差值differ对待分文档排序。确定一个阈值s。用分类器SVM对differs的文档集进行分类，用分类器KNN对differs的文档集进行分类。综合得出的结果，可以得到最优的分准率。该方法分准率可以提高0.2个百分点。两种分类器结合方法二首先用分类器SVM对测试集进行分类，并计算出各文档属于给定类别的概率并排序。将排序后的文档划分成n个部分，对每个部分分别用分类器SVM计算出分准率PSi（i = 1,2,……,n），以及分类器KNN计算出分准率PKi（i = 1,2,……,n），当PSi=PKi时，则第i部分的文档采SVM进行分类，反之则采用KNN进行分类。我们取n ＝ 20，第1，4，7部分采用KNN，其它部分采用SVM。分准率可以提高0.47个百分点两种分类器结合方法三对于同一个网页p，用kNN进行分类得到一个类别c1，p与c1之间的相似度值s1；用SVM进行分类得到一个类别c2，p与c2之间的相似度值s2。在具体实现中，考虑到KNN和SVM权值计算方式的差别，我们将s2扩大到1.11倍：s2 = 1.11* s2。比较s1和s2，如果s1＝s2，则将c1作为网页p的分类结果；如果s1s2，则将c2作为网页p的分类结果。该方法分准率可以提高大概0.7个百分点。 The End * 分类模块特征提取模块中文分词模块网页净化模块训练集1 格式转换 CWT200G 建分类模型特征优选中文分