- 6
- 0
- 约7.29千字
- 约 12页
- 2018-08-31 发布于福建
- 举报
基于风险决策文本语义分类算法
基于风险决策文本语义分类算法
摘 要:传统的文本分类多以空间向量模型为基础, 采用层次分类树模型进行统计分析, 该模型多数没有结合特征项语义信息, 因此可能产生大量频繁语义模式, 增加了分类路径。结合基本显露模式(eEP)在分类上的良好区分特性和基于最小期望风险代价的决策粗糙集模型, 提出了一种阈值优化的文本语义分类算法TSCTO:在获取文档特征项频率分布表之后, 首先利用粗糙集联合决策分布密度矩阵, 计算最小阈值, 提取满足一定阈值的高频词;然后结合语义分析与逆向文档频率方法获取基于语义类内文档频率的高频词;采用eEP分类方法获得最简模式;最后利用相似性公式和《知网》提供的语义相关度, 计算文本相似性得分, 利用三支决策理论对阈值进行选择。实验结果表明, TSCTO算法在文本分类的性能上有一定提升。
关键词:决策粗糙集模型;文本分类;语义;特征项;基本显露模式
中图分类号:TP391.4
文献标志码:A
文章编号:1001-9081(2016)11-2963-06
0 引言
文本分类是有效组织和处理信息的基础, 为了能够对文本进行正确分类, 常见的处理方法是将非结构化的文本数据转换成易于分析和计算的结构化文档数据, 结合文本语义和结构特点对文本进行分析和分类。一部分学者以特征项支持度作为权重, 构建空间向量模型, 如彭京等[1]提出的基
原创力文档

文档评论(0)