大学毕业设计论文-研究生论文—-开题报告—基于隐私保护的多源数据挖掘高效算法研究.doc

下载文档 降价啦

9
0
约1.56万字
约 15页
2017-06-09 发布于辽宁
举报
版权申诉
保障服务

大学毕业设计论文-研究生论文—-开题报告—基于隐私保护的多源数据挖掘高效算法研究.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大学毕业设计论文-研究生论文—-开题报告—基于隐私保护的多源数据挖掘高效算法研究

研究生学位论文开题报告题目名称：基于隐私保护的多源数据挖掘高效算法研究姓名：学号：专业名称：研究方向：攻读学位：学院：导师姓名：导师职称：填表时间年月日填表说明 1．开题报告是研究生培养的重要环节，研究生需在认真完成。 2．完成时间：硕士研究生的开题报告应于第三学期末前完成 3．打印要求：此表用A4纸双面打印。 4．此表与中期考核审核表、成绩单、实践报告、学术活动列表等材料一起交于学院，参加中期考核一、课题来源，国内外研究现状、水平及发展趋势，选题的研究意义、目的，参考文献（一）课题来源 1、问题的提出数据挖掘，顾名思义即是从大型数据库中提取人们感兴趣的知识，这些知识是隐含的、事先未知的、潜在的、有用信息，提取的知识表示为概念、规则、规律、模式等形式[1]。数据挖掘要处理的问题，就是在庞大的数据库中寻找有价值的隐藏事件，加以分析，并将这些有意义的信息归纳成结构模式，提供给有关部门决策时参考。目前已经提出的常用方法有关联规则、决策树、聚类、神经网络等方法。然而，在对数据进行挖掘的时候，都不可避免的会出现敏感信息泄露的问题，随着数据挖掘技术的日益发展，数据隐私和信息安全逐渐引起人们的关注。为了保护数据的隐私，人们不愿提供正确的信息给服务商，以免个人信息泄露造成不必要的麻烦，但是数据挖掘结果准确的重要前提是提供的数据正确。由于数据挖掘主要任务是对汇总数据的模式开发，这使得构造一个不需要访问精确的单个信息而获得准确的模式的挖掘技术成为可能。目前，基于隐私保护的数据挖掘技术已经成为一个新颖热门的研究领域，国内外已有很多成熟的研究算法和技术。通过众多文献比对我们发现，目前已有的这些基于隐私保护的数据挖掘算法和技术大多是针对单源数据库进行挖掘和保护，而在实际应用中，有很多情况必须面对多个数据源。例如，许多大型企业、跨国公司都拥有过个子公司，每个子公司都有自己相应的数据库。这就迫切需要数据库挖掘系统具有针对多数据源进行挖掘和保护的能力。已有的国内外文献中，针对多源数据进行挖掘的模型和算法已经出现，但是基于隐私保护技术的多源数据挖掘研究却很少提及。这可能是由于多源数据挖掘本身的技术局限性，导致在对多个数据源进行挖掘时，泄露敏感信息都成为了不可避免的操作。因此，本文在对当前已有的多源序列模式挖掘技术研究的基础上，分析结合并行和隐私保护技术的特点，提出新的基于隐私保护的多源数据挖掘高效算法，使得在多源环境下既可以高效率高准确度的挖掘出高投票率模式（全局模式），又可以隐藏敏感序列模式，达到较好的隐私保护效果。（二）国内外研究现状、水平及发展趋势 1、数据挖掘中的隐私保护主要考虑两个方面的问题，一个是敏感的原始数据，一个是从数据库中提取出来的敏感知识。这两种信息都应当在挖掘的时候进行删除，因为可能导致隐私泄露问题。因此，隐私保护数据挖掘的主要目的就是用某种技术改进已有的数据挖掘算法来修改原始数据，使得敏感的数据和知识不被泄露。目前，针对隐私保护数据挖掘的研究，国外已经有很多方法。文献[4]采用数据扰乱技术，从训练数据中重构一个决策树分类器从而解决数据挖掘中隐私保护问题。文献[5]提出了一种基于随机化的方法——随机响应技术，利用这种源于统计学研究中隐私保护的方法，来实现在不泄露隐私数据的情况下进行一定精度的建模，文中主要探讨了与ID3决策树算法结合进行分类的方法。文献[6]讨论了一个利用不确定性符号进行数据阻塞并应用于关联规则挖掘的具体例子，这种情况下支持度和置信度分别用支持度区间和置信度区间代替。文献[7]提出一个利用添加噪声数据对待挖掘数据库进行有效分类的框架，满足了对数据集中敏感信息方差和协方差的有效保护。对于如何很好的平衡隐藏限制模式和揭露非限制模式，文献[8]中提出了一个基于隐私保护的频繁项集数据挖掘框架，对原始数据库进行了一定程度的安全清洗。文献[9]针对交易型数据库，提出一个新的仅需要一遍扫描数据库的算法对原始数据库数据进行处理，使得既能达到保护隐私数据，又能挖掘出准确的关联规则，保留关联规则挖掘的益处。由于在关联规则挖掘中，很容易从非敏感信息和原始未分类数据中推测出敏感信息，因此文献[10]提出了一个新的算法来平衡关