- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘文本分类器
* * * * * * * * * * * * * * * 谢谢大家! 文本分类器 主要内容 Newsgroup文本预处理 朴素贝叶斯 KNN 算法对比评价 5 2 3 4 分类器实现概述 1 分类器实现概述 对newsgroup文档集进行预处理,提取出30095 个特征词 计算每篇文档中的特征词的TF*IDF值,实现文档向量化,在KNN算法中使用 用JAVA实现了KNN算法及朴素贝叶斯算法的newsgroup文本分类器 作为学习拓展,用C++实现了决策树ID3算法,采用了课件上的训练数据 Newsgroup文档预处理 文档预处理类DataPreProcess.java STEP ONE:英文词法分析,去除数字、连字符、标点符号、特殊 字符,所有大写字母转换成小写,可以用正则表达式 String res[] = line.split([^a-zA-Z]); STEP TWO:去停用词,过滤对分类无价值的词 STEP THRE: 词根还原stemming,基于Porter算法 Newsgroup文档预处理 特征词的提取 首先统计在所有文档中出现不重复的单词一共有87554个,对这些词进行统计发现: 出现次数大于等于1次的词有87554个 出现次数大于等于2次的词有49352个 出现次数大于等于3次的词有36456个 出现次数大于等于4次的词有30095个 策略一:保留所有词作为特征词 共计87554个 策略二:选取出现次数大于等于4次的词作为特征词共计30095个 特征词的选取策略:采用策略一 后面将对两种特征词选取策略的计算时间和平均准确率做对比 朴素贝叶斯算法描述 伯努利模型(Bernoulli model) –以文件为粒度 类条件概率P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2) 先验概率P(c)=类c下文件总数/整个训练样本的文件总数 本分类器选用多项式模型计算 根据《Introduction to Information Retrieval 》,多项式模型计算准确率更高 朴素贝叶斯分类器有两种模型 多项式模型( multinomial model ) –以单词为粒度 类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/ (类c下单词总数+训练样本中不重复特征词总数) 先验概率P(c)=类c下的单词总数/整个训练样本的单词总数 朴素贝叶斯算法实现 贝叶斯算法类 NaiveBayesianClassifier.java 测试集与训练集创建类 CreateTrainAndTestSample.java 计算概率用到了BigDecimal类实现任意精度计算 用交叉验证法做十次分类实验,对准确率取平均值 根据正确类目文件和分类结果文计算混淆矩阵并且输出 MapString,Double cateWordsProb key为“类目_单词”, value为该类目下该单词的出现次数,避免重复计算 朴素贝叶斯算法分类结果 为方便计算混淆矩阵,将类目编号 0 alt.atheism 1 comp.graphics 2 comp.os.ms-windows.misc 3comp.sys.ibm.pc.hdwar 4comp.sys.mac.hardwar 5 comp.windows.x 6 misc.forsale 7 rec.autos 8 rec.motorcycles 9 rec.sport.baseball 10 rec.sport.hockey 11 sci.crypt 12 sci.electronics 13 sci.med 14 sci.space 15 soc.religion.christian 16 talk.politics.guns 17 talk.politics.mideast 18 talk.politics.misc 19 talk.religion.misc 朴素贝叶斯算法分类结果 贝叶斯算法分类结果-混淆矩阵表示 朴素贝叶斯算法分类结果 贝叶
您可能关注的文档
最近下载
- 地下室渗漏处理专项施工方案.doc VIP
- 高中一年级英语必修一试卷(含答案)(适合测试) .pdf
- 10.3 实际问题与二元一次方程组 第2课时 实际问题与二元一次方程组(二)课件-人教版(2024)数学七年级下册.pptx
- 风力发电工程- 施工总进度计划横道图-含升压站.pdf
- 2025年咨询工程师之宏观经济政策与发展规划题库附答案(典型题).pdf VIP
- 职业技术学院物流服务与管理专业人才培养方案(5学年一贯制).doc VIP
- 【人教版】八年级下学期生物期中试卷(有答案) (2).doc VIP
- 公路工程全过程管理大纲.docx
- 题型07 动态问题试题-2018年中考数学十大题型卷(解析版).pdf VIP
- 抛石施工专项方案.doc VIP
文档评论(0)