基于特征值提取文本分类方案剖析.docx

基于特征值提取文本分类方案剖析

目录一、综述2(一)实现目标2(二)主要功能2二、总体架构2三、各模块建模挖掘层详解4(一)无监督学习模块4(二)有监督学习模块5四、输入层和输出层详解5(一)输入层5(二)输出层5基于特征值提取文本分类设计方案一、综述(一)实现目标本模块实现了对文本文档集合的分类特征值提取。对输入的分类文档,基于词频、互信息、类别信息的综合特征,从每个分类中挖掘出对应的有效特征值。该模块还实现了对特征值的权重计算,按照特征词的权重值,构造了分类器。新增文本可以通过文本分类器进行分类,无法分类的文本可以人工分类后重新执行特征值抽取功能,重新调整特征值,从而达到优化分类器的目的。该模块由Java编写,可用于任何需要挖掘文本主题的项目中,也可以单独使用。(二)主要功能该模块的主要功能包括以下几个方面:对原始语料库进行中文分词、去除停用词词性过滤,只提取名词,动词按类别进行特征词提取特征词权重计算文本分类二、总体架构三、挖掘层详解1.文本分词中文分词采用开源的Ansj分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(HMM),比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。Ansj是一款纯Java的、主要应用于自然语言处理的、高精度的分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域

文档评论(0)

1亿VIP精品文档

相关文档