基于特征值提取文本分类方案剖析
目录一、综述2(一)实现目标2(二)主要功能2二、总体架构2三、各模块建模挖掘层详解4(一)无监督学习模块4(二)有监督学习模块5四、输入层和输出层详解5(一)输入层5(二)输出层5基于特征值提取文本分类设计方案一、综述(一)实现目标本模块实现了对文本文档集合的分类特征值提取。对输入的分类文档,基于词频、互信息、类别信息的综合特征,从每个分类中挖掘出对应的有效特征值。该模块还实现了对特征值的权重计算,按照特征词的权重值,构造了分类器。新增文本可以通过文本分类器进行分类,无法分类的文本可以人工分类后重新执行特征值抽取功能,重新调整特征值,从而达到优化分类器的目的。该模块由Java编写,可用于任何需要挖掘文本主题的项目中,也可以单独使用。(二)主要功能该模块的主要功能包括以下几个方面:对原始语料库进行中文分词、去除停用词词性过滤,只提取名词,动词按类别进行特征词提取特征词权重计算文本分类二、总体架构三、挖掘层详解1.文本分词中文分词采用开源的Ansj分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(HMM),比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。Ansj是一款纯Java的、主要应用于自然语言处理的、高精度的分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域
您可能关注的文档
- (语文苏教版)五年级上册每课一练:15《艾滋病小斗士》精选.doc
- (语文S版)一年级语文下册课件3.古诗两首村居精选.ppt
- 基于无线传输技术和Android系统的智能家居的设计剖析.doc
- 基于数据挖掘的商业银行个人信用风险评估平台设计与实现剖析.doc
- (语文S版)一年级语文下册课件4.古诗两首村居2精选.ppt
- (课堂设计)2014-2015高中数学2.3幂函数学案2新人教A版必修5精选.doc
- (课堂设计)2014-2015高中数学1.3.2奇偶性学案2新人教A版必修5精选.doc
- (课堂设计)2014-2015高中数学2.1指数函数学案新人教A版必修5精选.doc
- 基于智能手机的人员识别和定位系统.剖析.ppt
- 基于智能网关的建筑能耗节能监管平台的设计薛国剑剖析.doc
最近下载
- 2025三亚崖州区中小学教师招聘考试试题及答案.docx VIP
- 2024年江苏省南京市中考历史试题卷(含答案).docx
- 交换技术教学课件作者第2版蒋青泉课件电信交换技术10-11章节幻灯片.ppt VIP
- 26春《点金训练 数学选择性必修第三册(配人教A版)》答案详解.pdf VIP
- 循证护理与跨学科合作.ppt VIP
- 浙江省2024年初中学业水平考试社会开卷试题真题(含答案详解) .pdf
- BANNA电子式数显压力传感器PE100-说明书.pdf
- 第48届世赛新增项目江苏省选拔赛数字交互媒体设计项目技术工作文件.doc
- 循证护理实践:跨学科合作与交流.pptx VIP
- 2026年东营公需科目---2026年度应急管理专题试卷.docx VIP
原创力文档

文档评论(0)