基于特征值提取文本分类方案剖析.docx

下载文档 降价啦

4
0
约2.47千字
约 6页
2017-06-05 发布于湖北
举报
保障服务

基于特征值提取文本分类方案剖析.docx

基于特征值提取文本分类方案剖析

目录一、综述2（一）实现目标2（二）主要功能2二、总体架构2三、各模块建模挖掘层详解4（一）无监督学习模块4（二）有监督学习模块5四、输入层和输出层详解5（一）输入层5（二）输出层5基于特征值提取文本分类设计方案一、综述（一）实现目标本模块实现了对文本文档集合的分类特征值提取。对输入的分类文档，基于词频、互信息、类别信息的综合特征，从每个分类中挖掘出对应的有效特征值。该模块还实现了对特征值的权重计算，按照特征词的权重值，构造了分类器。新增文本可以通过文本分类器进行分类，无法分类的文本可以人工分类后重新执行特征值抽取功能，重新调整特征值，从而达到优化分类器的目的。该模块由Java编写，可用于任何需要挖掘文本主题的项目中，也可以单独使用。（二）主要功能该模块的主要功能包括以下几个方面：对原始语料库进行中文分词、去除停用词词性过滤，只提取名词，动词按类别进行特征词提取特征词权重计算文本分类二、总体架构三、挖掘层详解1.文本分词中文分词采用开源的Ansj分词工具，基于中科院的 ictclas 中文分词算法，采用隐马尔科夫模型（HMM），比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。Ansj是一款纯Java的、主要应用于自然语言处理的、高精度的分词工具，目标是“准确、高效、自由地进行中文分词”，可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于特征值提取文本分类方案剖析.docx