數据挖掘基于贝叶斯算法及KNN算法.docxVIP

下载本文档

8
0
约1.95万字
约 10页
2016-11-27 发布于重庆
举报
版权申诉

數据挖掘基于贝叶斯算法及KNN算法.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

數据挖掘基于贝叶斯算法及KNN算法

吸氧机， HYPERLINK 家用吸氧机价格制氧机， HYPERLINK 鱼跃家庭制氧机 ?数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现（上）?本分类器的完整工程可以到点击打开链接下载，详细说明的运行方法，用eclipse可以运行，学习数据挖掘的朋友可以跑一下，有问题可以联系我，欢迎交流：）上文中描述了newsgroup18828文档集的预处理及贝叶斯算法的JAVA实现，下面我们来看看如何实现基于KNN算法的newsgroup文本分类器 1 KNN算法的描述 KNN算法描述如下：STEP ONE:文本向量化表示,由特征词的TF*IDF值计算STEP TWO:在新文本到达后，根据特征词确定新文本的向量STEP THREE:在训练文本集中选出与新文本最相似的 K 个文本，相似度用向量夹角余弦度量，计算公式为：其中，K 值的确定目前没有很好的方法，一般采用先定一个初始值，然后根据实验测试的结果调整 K 值本项目中K取20 STEP FOUR:在新文本的 K 个邻居中，依次计算每类的权重，每类的权重等于K个邻居中属于该类的训练样本与测试样本的相似度之和。STEP FIVE:比较类的权重，将文本分到权重最大的那个类别中。 2 文档TF-IDF计算及向量化表示实现KNN算法首先要实现文档的向量化表示计算特征词的TF*IDF，每个文档的向量由包含所有特征词的TF*IDF值组成，每一维对应一个特征词 TF及IDF的计算公式如下，分别为特征词的特征项频率和逆文档频率文档向量计算类 ComputeWordsVector.java如下 package?com.pku.yangliu;?? import?java.io.BufferedReader;?? import?java.io.File;?? import?java.io.FileReader;?? import?java.io.FileWriter;?? import?java.io.IOException;?? import?java.util.SortedMap;?? import?java.util.Map;?? import?java.util.Set;?? import?java.util.TreeMap;?? import?java.util.Iterator;?? ?? /**计算文档的属性向量，将所有文档向量化? ?*?@author?yangliu? ?*?@qq?772330184?? ?*?@mail?yang.liu@? ?*? ?*/?? public?class?ComputeWordsVector?{?? ?????? ????/**计算文档的TF属性向量,直接写成二维数组遍历形式即可，没必要递归? ?????*?@param?strDir?处理好的newsgroup文件目录的绝对路径? ?????*?@param?trainSamplePercent?训练样例集占每个类目的比例? ?????*?@param?indexOfSample?测试样例集的起始的测试样例编号? ?????*?@param?wordMap?属性词典map? ?????*?@throws?IOException?? ?????*/?? ????public?void?computeTFMultiIDF(String?strDir,?double?trainSamplePercent,?int?indexOfSample,?MapString,?Double?iDFPerWordMap,?MapString,?Double?wordMap)?throws?IOException{?? ????????File?fileDir?=?new?File(strDir);?? ????????String?word;?? ????????SortedMapString,Double?TFPerDocMap?=?new?TreeMapString,Double();?? ????????//注意可以用两个写文件，一个专门写测试样例，一个专门写训练样例，用sampleType的值来表示?? ????????String?trainFileDir?=?F:/DataMiningSample/docVector/wordTFIDFMapTrainSample+indexOfSample;?? ????????String?testFileDir?=?F:/DataMiningSample/docVector/wordTFIDFMapTestSample+indexOfSample;?? ????????FileWriter?tsTra