- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
*3、大数据挖掘*大数据挖掘的任务-以盲人摸象为例将不同来源的异构信息(每个盲人所摸的信息)进行整合以实时画出最有可能的关于大象的完整图像。问题不是想象的简单,存在困难:(1)如果大象本身变得越来越大,或者姿势也在变化;(2)盲人本身对信息的理解有偏差;(3)如果盲人之间说不同的语言;(4)盲人对所采集到信息有所保留,以便保护隐私。*大数据挖掘挑战*大数据挖掘挑战三层结构框架:(1)平台层:数据访问和计算计算平台处理分布式大规模数据(2)数据层:数据隐私和领域知识理解与应用相关的语义和领域知识(3)算法层:数据挖掘算法挖掘算法也分层三个阶段(a)利用数据融合技术预处理稀疏、异构、不确定、不完整以及多来源数据;(b)挖掘复杂动态变化的数据;(c)对利用局部学习和模型融合所得到的全局知识进行测试,并反馈相关信息给预处理阶段*挑战1-大数据挖掘平台基于集群的高性能计算平台,利用一些并行编程模式如MPI,Mapreduce将数据挖掘任务分解成许多小的任务,每个小任务利用一个或者多个计算节点来完成;需要工业界的支持;大数据挖掘将超越关系型数据,而需要支持对非结构化或者半结构化数据的处理,如微博、社交媒体等。目前很多大公司,如IBM,Oralce等都提供这样的产品。*挑战2-大数据语义和领域知识语义和应用知识包含的内容比较多,如规则、政策、用户知识、领域信息等,但最重要的是:(1)数据共享和隐私:关注数据的维护、访问和共享;(2)领域和应用知识:关注数据中用户感兴趣的模式或者知识。*挑战2-大数据语义和领域知识1、信息共享和数据隐私保护隐私:(1)限制访问,访问控制或者身份认证等,挑战是设计安全的认证或者访问控制机制;(2)数据匿名,挑战是设计隐私保护的数据挖掘:(a)使用特定的通信协议去获取整个数据分布,而不是具体的每条数据;(b)设计特定的挖掘算法从匿名数据中获取知识。2、领域知识没有领域知识,难以找到有效的算法*挑战3-大数据挖掘算法1、局部学习与模型融合整合局部数据进行集中处理是不可行的,主要是传输开支和隐私问题。数据分布式处理,利用单个节点挖掘自身数据中的知识,具有一定的偏差。大数据挖掘系统需要能整合局部挖掘信息以获取全局最优。(1)数据级,每个局部节点可以计算自身的统计信息并进行交互;(2)模型或者模式级,每个节点执行局部挖掘任务,挖掘局部模式;并对局部模式进行合成以得到全局模式。(3)知识级,分析模型之间的关联,以获取准确的决策。*挑战3-大数据挖掘算法2、挖掘稀疏、不确定和不完整的数据稀疏:高维小样本数据导致模型的可靠性下降。对策是降维或者增加样本。不确定:数据中特征取值不是确定的,而是在一定的范围内。不完整:数据中某些特征的取值丢失。*挑战3-大数据挖掘算法3、挖掘复杂的、动态变化数据复杂的异构数据:结构化、非结构化和半结构化数据。复杂的内在语义关联:文本-图像-视频。复杂的关联网络:社交网络。实时处理复杂数据是一个非常具有挑战性的问题。*挑战1-平台对策并行编程模型:MapReduce云计算平台SparkR(开源统计分析工具)与Hadoop相结合;Weka(开源数据挖掘软件)与MapReduce相结合;Hadoop上的Hive或者Mahout数据挖掘工具平台;HadoopML:开发人员很容易基于该平台实现任务并行和数据并行的数据挖掘。*挑战2-数据对策保护隐私:多层粗糙集模型K匿名删除敏感信息数据变换添加噪声数据替换审计机制:采用公钥机制*挑战3-算法对策多源数据分析:将传统的单源挖掘算法推广到多源情形。局部模式分析理论流式数据分析:数据具有连续性、易变性、快速性和无穷性。有效的理论和技术框架是非常关键。概念漂移处理:数据流中隐式的目标概念发生了改变。*经典算法的并行化任何满足统计查询模式的算法都可以写成求和形式,从而很容易利用MapReduce编程模式实现。相关算法:局部加权线性回归朴素贝叶斯高斯判别分析K均值聚类Logistic回归神经网络主成份分析独立成份分析EM算法支持向量机*算法的并行化-以线性回归为例最小化其中X为训练样本矩阵,y是样本标记矢量。变换成求和形式:这样计算A和b就可以通过将训练数据划分成多个大小相同的训练数据块,并分配给多个节点来并行计算*在step0,Map-Reduce引擎(Engine)将训练数据进行分割,同时将这些分割好的数据进
您可能关注的文档
- 广东省广州市南沙区2022-2023学年高三下学期二模英语试题(原卷版).docx
- 广东省江门市培英高级中学2021-2022学年高三上学期第一次模拟考试英语试题(原卷版).docx
- 广西南宁市示范性高中2022-2023学年高一下学期6月期末联合调研测试数学试题(教师版).docx
- 广西南宁市示范性高中2022-2023学年高一下学期6月期末联合调研测试数学试题(学生版).docx
- 广西钦州市2023-2024学年高一下学期期中考试数学试卷(教师版).docx
- 河北省保定市2021-2022学年下学期高三七校联合模拟第一次考试英语试题(解析版).docx
- 河北省保定市2021-2022学年下学期高三七校联合模拟第一次考试英语试题(原卷版).docx
- 河北省保定市清苑区清苑中学2023-2024学年高一上学期期末竞赛数学试题(解析版).docx
- 河北省保定市清苑区清苑中学2023-2024学年高一上学期期末竞赛数学试题(原卷版).docx
- 河北省沧州市2023-2024学年高三上学期复习质量检测英语试卷(解析版).docx
最近下载
- 政府会计准则试题.pdf VIP
- 2025年江西省中考语文模拟卷(二)(含答案) .pdf VIP
- 综合与实践 低碳生活(课件)2024-2025学年度人教版数学七年级下册.pptx VIP
- 关于护理垂直管理体系的工作方案.docx VIP
- 实训3数据备份的概念,掌握使用Windows Server Backup备份和恢复数据.docx VIP
- 社区网格化管理工作小结.doc VIP
- 水利水电工程安全监测单元工程施工质量验收评定标准.pdf VIP
- 东方黄粱梦(原曲:仙剑赋)钢琴谱钢琴简谱 数字谱 钢琴双手简谱.pdf VIP
- 《肾上腺皮质功能监测》课件.ppt VIP
- 注册安全工程师知识点总结(法律法规).docx
文档评论(0)