- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于类别分布信息的中文文本分类模型.doc
一种基于类别分布信息的中文文本分类模型
[ ]特征降维是文本分类面临的主要问题之 一。首先通过X2分布对特征项进行选择,然后使用一 种改进的基于密度聚类方法对选择后的特征项进行聚 类,借助类别分布信息,在尽量减少信息缺失的前提 下先后两次对文本特征维数进行了压缩:在基于类别 概率分布的模式下实现文本的矩阵表示,借助矩阵理 论进行文本分类。试验结果表明,该方法的分类效率 较高。
[关键词]文本分类特征选择特征聚类Bayes 分布文本表示
[分类号]TP391
1引言
伴随着信息技术的发展,互联网上海量信息资源
对信息检索(Information Retrieval, IR)研究带来了巨大
挑战,同时也为其提供了难得的发展机遇。作为信息 检索和文本挖掘的重要内容之一,文本自动分类得到
了越来越多的关注。文本分类(Text Categorization,TC)
的主要任务就是在预先给定的类别标记集合下,根据 待分文本内容对其类别归属进行判定。文本分类技术 在自然语言处理、信息过滤、信息推荐等领域有着广 泛的应用基础,同时其发展也受这些相关领域技术水 平发展的制约。基于机器学习的中文文本分类方法相 比较于早期的基于知识工程或专家系统的文本分类模 式,在分类效果、方法灵活性、扩展性等方面均有所 突破,同时在特征选择、文本表示、分类器性能评价、 自反馈系统设计以及分类效果评估等方面均不同程度 得到发展。
2文本特征降维的两种主要模式及其特点
文本特征降维是文本分类面临的主要问题之一。 文本特征降维主要有两种路径:一是基于特征相关特 性的特征抽取;二是基于特征统计特性的特征选择。 特征抽取一般是通过映射把测量空间的数据投影到特 征空间,获得在特征空间相应的数值,进而对特征项 的作用进行评估,其本质是完成测量空间到特征空间 的变换。基于特征相关性的文本分类研宄如潜在语义 索弓I (Latent Semantic Indexing,LSI)、主成分分析 (Principal Component Analysis, PCA)等模型得到一定进
展,但是由于诸如语义排歧等相关的自然语言处理技 术研宄有待深入,完全基于概念的向量空间模型在信 息检索应用中还没有充分体现出应有的优势。特征选 择是从特征集合里借助评估函数选出对文本表示能力 强的部分特征项,其结果是得到原特征项集的一个子 集,本质上是对特征集合的约简。在特征选择方面,
由于中文文本的语法、语义、语言习惯等在使用上呈 现极端的复杂多样性,目前的文本特征选择方法如互 信息、x2统计、期望交叉熵等尚有许多可以改进的地 方。本文从特征项相对于文本类别分布的角度出发, 对特征项选取方法和文本表示模式两个方面加以改进, 提出了一种新的特征降维和文本表示方法度量文本和 类别的相似度,试验结果表明,该方法在提高文本分 类精度上取得了较好的效果。
3 —种基于统计信息的特征聚类方法
3.1特征选取对文本分类算法的影响 在向量空间模型(vectorSpaceModel,VSM)相关理
论下,KNN文本分类算法被认为是最好的分类算法之 一。其思想是将测试文本根据特征项表示成向量形式, 然后计算其与训练样本集里每个样本的相似度,依相
似度值大小取前k个最相似的训练样本,将该测试文 本归入相似样本最多的那一类中。但是KNN算法存在 一些不足之处。首先,文本类属判定与文本特征选取 的数量和质量相关,若特征选取的数量过大,文本向 量的维数太高,使得计算开销过大,并且许多特征项 对类别归属所能提供的信息很少;另一方面,大量减 少特征词数量又会丢失许多重要的分类信息。再者将 文本表示成向量后,利用夹角余弦等手段计算文本相 似度却不能体现特征项之间的内在联系,各特征项“各 自用力”,因而不能确切体现文本间相似程度。因此, 合理的特征选取及表示是提高文本分类效果的关键因 素之一。
3.2基于特征项相关性统计信息的特征选择 在常用的几种特征选择方法,比如互信息,信息
增益、文本证据权、词频方法以及CHI(x2统计)统计里 面,CHI方法通常优于其余方法,该方法体现了词与 词之间的相关信息、词与文本类别之间的相互关联程 度,反映了特征项对类别判定信息含量的大小。一般 说来,特别是在大样本情况下,语义上相同或相近的 特征项在相同的文本类别分布上应该呈现相同或相近 的性态。也就是说,在概率意义下,它们在x2分布列
上应该体现出相似的概率值。为此,可以认为具有相 似CHI分布的特征项对文本分类应该具有相似的贡献。 因而我们首先对CHI分布相似的特征项进行初步选择, 在最大程度减少文本信息缺失的前提下,可以大幅度 降低文本向量维数。
设训练文本集的类别数为S类,记为cl,c2, cs; 对每个特征项t,利用x2统计得到相应的CHI统计值:
原创力文档


文档评论(0)