以特征值关联项改贝叶斯分类器正确率.PDFVIP

下载本文档

6
0
约2.58万字
约 6页
2017-10-15 发布于上海
举报
版权申诉

以特征值关联项改贝叶斯分类器正确率.PDF

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

以特征值关联项改贝叶斯分类器正确率

第３４卷第８期　　　计算机应用与软件Ｖｏｌ３４Ｎｏ．８２０１７年８月　　ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅＡｕｇ．２０１７以特征值关联项改进贝叶斯分类器正确率蔡永泉　王玉栋（北京工业大学计算机学院　北京１００１２４）摘　要　　朴素贝叶斯分类器建立在其数据“特征值之间相互条件独立”的基础上，而在实际应用中该假设难以完全成立。针对这种现象提出一种算法，即通过寻找对产生错误分类影响最大的特征值，并依此特征值的关联项对数据项扩充，在此基础上对扩充项添加权重，以达到提升分类器精度的效果。最后对权重的大小加以论证，实验分析了不同大小的权重对分类器正确率的影响。实验结果表明，添加关联项扩充训练集，可以有效提升贝叶斯分类器的正确率。关键词　　朴素贝叶斯分类器　贝叶斯算法　贝叶斯分类器中图分类号　ＴＰ３　　　　文献标识码　Ａ　　　　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００３８６ｘ．２０１７．０８．０５１ＩＭＰＲＯＶＥＮＡ?ＶＥＢＡＹＥＳＣＬＡＳＳＩＦＩＣＡＴＩＯＮＷＩＴＨＲＥＬＡＴＥＤＩＴＥＭＳＣａｉＹｏｎｇｑｕａｎ　ＷａｎｇＹｕｄｏｎｇ（ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＢｅｉｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ１００１２４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ　　ＮａｉｖｅＢａｙｅｓｃｌａｓｓｉｆｉｅｒｉｓｂａｓｅｄｏｎｔｈｅｈｙｐｏｔｈｅｓｉｓｔｈａｔｐａｒａｍｅｔｅｒｓｏｆｔｈｅｓａｍｐｌｅａｒｅｍｕｔｕａｌｌｙｃｏｎｄｉｔｉｏｎａｌｉｎｄｅｐｅｎｄｅｎｔ．Ｔｈｅｐｒａｃｔｉｃａｌａｐｐｌｉｃａｔｉｏｎｏｆｔｈｉｓｈｙｐｏｔｈｅｓｉｓｉｓｈａｒｄｔｏｅｓｔａｂｌｉｓｈｅｄ，ｓｏｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｎｅｗａｌｇｏｒｉｔｈｍｔｏｉｍｐｒｏｖｅＮａｉｖｅＢａｙｅｓｃｌａｓｓｉｆｉｅｒｔｈｒｏｕｇｈｌｏｏｋｉｎｇｆｏｒｐｒｏｐｅｒｔｉｅｓｔｈａｔｈａｖｅｔｈｅｍａｘｉｍｕｍｉｎｆｌｕｅｎｃｅｏｎｅｒｒｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈａｎｅｆｆｅｃｔｉｖｅｌｙｗａｙ，ｆｉｎｄｉｎｇｒｅｌａｔｅｄｉｔｅｍｓｔｏｅｘｔｅｎｄｔｈｅｏｒｉｇｉｎａｌｄａｔａｓｅｔ，ｔｈｅｎａｄｄｉｎｇｗｅｉｇｈｔｓｔｏｔｈｅｒｅｌａｔｅｄｉｔｅｍｓ．Ｔｈｉｓｐａｐｅｒｓｈｏｗｓｔｈｅｒｅｓｕｌｔｓｂｙｅｘｐｅｒｉｍｅｎｔｓ，ａｎｄｒｅｌａｔｅｄｉｔｅｍｓｍａｋｅｔｈｅｃｌａｓｓｉｆｉｅｒｗｏｒｋｂｅｔｔｅｒ．Ｋｅｙｗｏｒｄｓ　　ＮａｖｅＢａｙｅｓｃｌａｓｓｉｆｉｃａｔｉｏｎ　Ｂａｙｅｓａｌｇｏｒｉｔｈｍ　Ｂａｙｅｓｃｌａｓｓｉｆｉｅｒ一种类似Ａｐｒｉｏｒｉ算法的冗余剔除算法和特征值筛选０　引　言方法，使关联特征值具有更好的分类能力。本文在ＮＢＣ的基础上，在经过一次训练后，通过朴素贝叶斯算法是一种在已知先验概率与类条件训练结果筛选容易致误的特征值，并对所有错误分类概率的情况下的模式分类方法，待分类样本的分类结的所包含的特征值进行提取，从中发掘关联项，对原训果取决于各类域中样本的全体［１］。朴素贝叶斯分类器练过程中的样本集进行提扩充。以０－１分类（两类分（ＮＢＣ）以贝叶斯公式为基础，从理论上讲精确度高，运类）为例，根据０和１两类的先验条件概率，考虑从样算速度快［２］，但也存在以下问题：（１）在样本的特征提本集中提取最有可能产生错误结果的特征值，并依该取不够优秀时，或对于易出现干扰项的样本，容易导致特征值寻找关联点扩充原数据集，从而提高ＮＢＣ的分分类正确率低。（２）样本中有部分数据特征稀疏，会类效果。极大地降低ＮＢＣ分类结果的正确率。因此ＮＢＣ一般情况下的分类效果难以达到