- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高性能数据挖掘的技术及其应用
@ Ying Liu 高性能数据挖掘技术及其应用 刘 莹 博士 副教授 yingliu@gucas.ac.cn 中国科学院研究生院信息科学与工程学院 简介 1999/07,北京大学, 计算机科学与技术,学士 2001/12,美国西北大学 (Northwestern University), 计算机工程, 硕士 2005/06,美国西北大学(Northwestern University), 计算机工程, 博士 2005/06 – 2005/11,助理研究员,美国西北大学 2006/01 – 今,副教授,中国科学院研究生院信息科学与工程学院,虚拟经济与数据科学研究中心 科研经历 美国国家航空航天局 (NASA): Mass Storage Performance Information System 美国能源部(DOE):Scientific Data Management Integrated Software Infrastructure Center Intel公司:Characterizing Scalable Data Mining Kernels/Primitives on SMP’s 美国国家科学基金(NSF): High-Performance Techniques, Designs and Implementation of Software Infrastructure for Change Detection and Mining (IIS-0536994) 科研经历 负责中国人民银行横向课题《个人信用评分系统研究》 主持自然科学基金创新群体项目子课题《海量数据的挖掘技术的研究》 主持自然科学基金重点项目子课题《可信软件过程的基本属性和度量模型》 主持教育部留学归国人员启动基金《基于传感器网络的交通数据流挖掘》 主持中科院研究生院院长基金《基于效用的数据挖掘理论与技术的研究》 科研成果 大规模科学模拟计算中的高性能数据挖掘 天体物理模拟中的聚类算法HOP的并行方案 适用于超大规模的科学模拟计算中,取得了非常好的加速比 被美国圣地亚哥超级计算中心(SDSC)使用 可扩展的数据挖掘算法的性能评估 可扩展的数据挖掘算法的性能评估 发布了NU-Minebench,第一个数据挖掘算法的基准组(benchmark suite),被下载1666次(2005/06/15 – 今) 被Intel公司使用 提纲 数据挖掘简介 高性能(并行/分布式)数据挖掘 应用实例介绍 天体模拟(cosmological simulation) 天文(astronomy) 航天(space operation) 生态系统(ecosystem) 生物信息学(bioinformatics) 总结 数据挖掘 自动的、从”海量”数据中挖掘出隐藏的、潜在的、有价值的知识的技术 挖掘的结果(知识)是用户感兴趣的,管理决策支持系统 数据挖掘技术的特点 海量数据 从历史的数据中自动寻找 高效 可扩展性好 模型更新快 应用性强 数据挖掘的动机—— 商业角度 收集和存储的数据量太大 电子商务 商业交易数据 信用卡交易 保险 CPU的处理速度每年增长15%,不能满足数据量增长的需要 提供更好的个性化服务,先进的客户关系管理手段等 数据挖掘的动机—— 科学计算角度 海量数据(GB/hour) 遥感数据 天文望远镜巡天 基因表达微阵列(Microarrays) 科学模拟 帮助科学家对数据进行多种分析, 如分类、分层等 数据挖掘的起源 交叉学科 统计方法 机器学习方法 神经网络 数据库 并行计算 传统方法的局限性在于 海量数据 高维数据 异构数据 复杂数据类型 流程 数据挖掘的主要技术 聚类(clustering) 异常点检测(anomaly detection) 分类(classification) 预测(prediction) 关联规则(association rules mining) 顺序模式(sequential pattern) 时间序列(time--series ) 聚类 自动将数据分成若干簇,使得不同簇的数据项相似性最小,簇内数据项的相似性最大。(不依赖于预先定义好的类,不需要训练集) 应用 模式识别 地理信息系统 图像处理 生物基因序列分析 天体模拟 文档聚类 异常点检测 从数据集中找出与正常行为有显著差异的数据项 应用 信用卡欺诈 医疗数据分析 网络入侵检测 常用算法 聚类 Statistical-based, Distance-based, Deviation-based 分类 根据从训练集数据(training data
文档评论(0)