- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
數据挖掘基于贝叶斯算法及KNN算法
吸氧机, HYPERLINK 家用吸氧机价格
制氧机, HYPERLINK 鱼跃家庭制氧机
?数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(上)?本分类器的完整工程可以到点击打开链接下载,详细说明的运行方法,用eclipse可以运行,学习数据挖掘的朋友可以跑一下,有问题可以联系我,欢迎交流:)
上文中描述了newsgroup18828文档集的预处理及贝叶斯算法的JAVA实现,下面我们来看看如何实现基于KNN算法的newsgroup文本分类器
1 KNN算法的描述
KNN算法描述如下:STEP ONE:文本向量化表示,由特征词的TF*IDF值计算STEP TWO:在新文本到达后,根据特征词确定新文本的向量STEP THREE:在训练文本集中选出与新文本最相似的 K 个文本,相似度用向量夹角余弦度量,计算公式为:
其中,K 值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整 K 值本项目中K取20
STEP FOUR:在新文本的 K 个邻居中,依次计算每类的权重,每类的权重等于K个邻居中属于该类的训练样本与测试样本的相似度之和。STEP FIVE:比较类的权重,将文本分到权重最大的那个类别中。
2 文档TF-IDF计算及向量化表示
实现KNN算法首先要实现文档的向量化表示计算特征词的TF*IDF,每个文档的向量由包含所有特征词的TF*IDF值组成,每一维对应一个特征词
TF及IDF的计算公式如下,分别为特征词的特征项频率和逆文档频率
文档向量计算类 ComputeWordsVector.java如下
package?com.pku.yangliu;??
import?java.io.BufferedReader;??
import?java.io.File;??
import?java.io.FileReader;??
import?java.io.FileWriter;??
import?java.io.IOException;??
import?java.util.SortedMap;??
import?java.util.Map;??
import?java.util.Set;??
import?java.util.TreeMap;??
import?java.util.Iterator;??
??
/**计算文档的属性向量,将所有文档向量化?
?*?@author?yangliu?
?*?@qq?772330184??
?*?@mail?yang.liu@?
?*?
?*/??
public?class?ComputeWordsVector?{??
??????
????/**计算文档的TF属性向量,直接写成二维数组遍历形式即可,没必要递归?
?????*?@param?strDir?处理好的newsgroup文件目录的绝对路径?
?????*?@param?trainSamplePercent?训练样例集占每个类目的比例?
?????*?@param?indexOfSample?测试样例集的起始的测试样例编号?
?????*?@param?wordMap?属性词典map?
?????*?@throws?IOException??
?????*/??
????public?void?computeTFMultiIDF(String?strDir,?double?trainSamplePercent,?int?indexOfSample,?MapString,?Double?iDFPerWordMap,?MapString,?Double?wordMap)?throws?IOException{??
????????File?fileDir?=?new?File(strDir);??
????????String?word;??
????????SortedMapString,Double?TFPerDocMap?=?new?TreeMapString,Double();??
????????//注意可以用两个写文件,一个专门写测试样例,一个专门写训练样例,用sampleType的值来表示??
????????String?trainFileDir?=?F:/DataMiningSample/docVector/wordTFIDFMapTrainSample+indexOfSample;??
????????String?testFileDir?=?F:/DataMiningSample/docVector/wordTFIDFMapTestSample+indexOfSample;??
????????FileWriter?tsTra
您可能关注的文档
最近下载
- 客车空调系统课件 第11章 客车空调系统性能试验.pptx VIP
- 客车空调系统课件 第8章 空调客车的隔热和保温.pptx VIP
- 2024年基础医学《中药炮制学》考试题库及答案 .pdf VIP
- 客车空调系统课件 第10章 计算流体力学在客车空调系统设计中的应用.pptx VIP
- 离异户口投靠父母申请书合集.docx VIP
- 新时代明德大学英语_Book1-Unit1电子教案.pdf VIP
- 《硫酸盐还原菌腐蚀机理及复合杀菌剂的研究》.docx VIP
- 2024事业单位工勤技能考试考试综合练习及参考答案详解(培优).docx
- GBT 10068-2020轴中心高为56 mm及以上电机的机械振动 振动的测量、评定及限值.pdf
- 2023-2024年助理医师资格证考试之口腔助理医师考试题库.pdf VIP
文档评论(0)