基于隐私保护分类挖掘.docVIP

下载本文档

4
0
约3.31千字
约 8页
2018-06-24 发布于福建
举报
版权申诉

基于隐私保护分类挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于隐私保护分类挖掘

基于隐私保护分类挖掘　　【摘要】本文阐述了隐私的概念，分析了隐私保护分类挖掘的算法，紧接着，本文分析了基于隐私保护的SVM分类挖掘算法步骤，最后，通过实验来详解隐私保护的分类挖掘算法，从而可以让读者更加明确什么是隐私保护的分类挖掘。　　【关键词】隐私保护；分类挖掘　　中图分类号： TP393 文献标识码： A 文章编号：　　一、前言　　互联网的快速发展让社会成为了一个信息爆炸的社会，在这个信息漫步的社会里，人与人之间的信息传播变得更加的简便，但是，信息传递更加便捷和方便的同时，其缺点也暴露出来，那就是信息的安全问题和隐私的保护问题。　　二、隐私概念　　简单地说，隐私就是个人、机构等实体不愿意被外部世界知晓的信息。在具体应用中，隐私即为数据所有者不愿意被披露的敏感信息，包括敏感数据以及数据所表征的特性。通常我们所说的隐私都指敏感数据，如个人的薪资、病人的患病记录、公司的财务信息等。但当针对不同的数据以及数据所有者时,隐私的定义也会存在差别的。例如保守的病人会视疾病信息为隐私，而开放的病人却不视之为隐私。一般地，从隐私所有者的角度而言，隐私可以分为两类：个人隐私和共同隐私。　　三、隐私保护分类挖掘算法　　1 相关定义　　(一)熵(Entropy)：刻画任意样本集的纯度．设S是n个数据样本的集合，将样本集划分为c个不同的类Ci(i=1，2，#8943; ，c)，每个类C 含有的样本数目为n ，则划分为c个类信息的熵为：　　　　其中，Pi为S中的样本属于第类c 的概率，即P =n／n．　　(二)信息增益Gain(S，A)定义为：其中Gain(S，A)=E(S)一E(S，A)，其中　　　　Values(A)为属性／4的所有不同值的集合，s ，是s中属性的值为／3的样本子集，S是5中属性A值为V的样本集．　　2 建立决策树　　分类挖掘中最为典型的分类方法是基于决策树的分类方法，决策树(Decision Tree)是一个类似于流程图的树结构．每个内部节点表示在一个属性上的测试，每个分枝代表一个测试输出，而树的叶节点代表类或类分布．最顶端的节点是根节点．本文采用自上而下递归的方式构造决策树．　　建立决策树的???键是在每个分支对应的数据集上找信息增益最大的属性作为分支节点．通过转变后的数据集和多属性联合扰动矩阵求属性信息增益的方法如下：　　设定一个数据集．s，．s的属性集为{A，，A ，#8943;，A }，其中A 为标签属性．　　(一)求根节点最大信息增益的属性．　　(1)求根节点最大信息增益的属性．　　通过公式T(A ) P(A )=D(A )可以算出标　　签属性A 的熵E(S)．　　通过公式T(A，A ) P(A，A )=D(A，A )可以　　算出每个属性的熵E(S，A)．通过公式Gain(S，A)=E(S)一E(．S，A)求出该属性的信息增益．　　(2)已知，根节点为A1，属性A 1值为a1的数据集为s1 ，求a1 分支上分裂节点最大信息增益的属性．　　通过公式表示属性的值为A1，可以算出在数据集S1标签属性A 的熵E(S1)．通过公式可以算出在数据集S1上每个属性的熵E(S1 )。可以算出在数据集S1上每个属性的熵E(S1,A)。通过公式Gain(S1 ，A)=E(S1 )- E(S1 ，A)求出该属性的信息增益．　　(3)求下层节点同理．直到生成的数据集中所有记录的标签属性都相同或所有属性都被分裂过才结束．　　3 决策树剪枝　　当决策树创建时，由于数据中的噪声和孤立点，许多分支反映的是训练数据中的异常．剪枝方法处理这种过分适应问题．通常，这种方法使用统计度量，剪去最不可靠的分支，从而提高分类的速度和准确度．通常有两种剪枝方法：　　(一)前剪枝算法是在树的生长过程完成前就进行剪枝．如Friedman提出的限制最小节点大小的方　　当决策树创建时，由于数据中的噪声和孤立点，许多分支反映的是训练数据中的异常．剪枝方法处理这种过分适应问题．通常，这种方法使用统计度量，剪去最不可靠的分支，从而提高分类的速度和准确度．　　通常有两种剪枝方法：　　(1)前剪枝算法是在树的生长过程完成前就进行剪枝．如Friedman提出的限制最小节点大小的方法，是当节点处的实例数目小于阈值k时，就停止生　　长该节点．　　(2)后剪枝算法是当决策树的生长过程完成后再进行剪枝，它允许决策树过度生长，然后根据一定的规则，减去决策树中那些不具有一般代表性的叶节点或分支．本文采用后剪技的方法．　　4 由决策树提取分类规则　　决策树所表示的分类知识可以被抽取出来并以IF—THEN形式的分类规则表示．从决策树的根节