(数据挖掘学科发展报告2013.docxVIP

下载本文档

2
0
约1.02万字
约 15页
2017-01-14 发布于北京
举报
版权申诉

(数据挖掘学科发展报告2013.docx

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(数据挖掘学科发展报告2013

数据挖掘学科发展报告作者：唐杰,梅俏竹时间：2013-10-17 14:59:00 【摘要】近年，随着各行业对大规模数据处理和深度分析需求的快速增长，数据挖掘引起了研究界和工业界的广泛关注。1．引言? ? ? ?数据挖掘是知识发现过程中的一个关键步骤，一般是指从大量数据中自动发现隐含的的数据关系，并将其转化为计算机可处理的结构化表示。数据挖掘是计算机学科中的一个交叉研究领域，其研究方法与多个其他科学紧密相连，如：统计、机2器学习、专家系统、信息检索、社会网络、自然语言处理和模式识别等等。? ? ? ?近年，随着各行业对大规模数据处理和深度分析需求的快速增长，数据挖掘引起了研究界和工业界的广泛关注。自1995年以来，学术界和工业界共同成立了 ACM的数据挖掘及知识发现专委会，并组织了国际数据挖掘与知识发现大会（ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 简称KDD [1]），后者发展成为数据挖掘领域的顶级国际会议。至今 KDD 大会已经连续举办了 19 届，论文的投稿量和参会人数呈现出逐年增加的趋势。图1 给出了自 2001 年以来 SIGKDD每届接收的论文投稿数和最终录用的论文数的对比。近几年，以社会网络和信息网络为中心的大数据分析成为数据挖掘研究的热点。? ? ? ?本报告围绕数据挖掘领域近年最主要的几个研究方向（基础理论、社会网络和大数据），以数据挖掘顶级国际会议KDD 和国际期刊IEEE TKDE、ACM TKDD 上发表的论文为基础介绍近几年国内学者在数据挖掘领域的主要研究进展，分析和比较国际国内学科发展趋势，并展望未来发展机遇。? ??? ?图1. 数据挖掘国际会议KDD历年投稿和论文接收情况(左)；KDD 2013研究热点(右)2．研究现状和主要成果2.1 数据挖掘基础理论? ? ? ?最早的数据挖掘理论基础主要源于统计，机器学习和数据库系统。经过近20年的发展，数据挖掘领域逐渐形成了一套自己的基础理论，主要包括规则和模式挖掘，分类、聚类、话题学习等。近年，随着网络数据的规模和复杂性的快速增长，时间序列和空间数据挖掘、以及基于大规模网络（图）的稀疏学习也得到越来越多的重视。以下我们简要介绍国内学者在数据挖掘基础理论上的最新成果。? ? ? ?在分类学习方面，清华大学的张长水团队研究了多任务的特征学习方法，提出了名为rMTFL的学习方法。该方法首先将多任务和不同特征的关系用矩阵表示，并基于Group Lasso的思想抽取出相关任务的特征空间，并因此找出孤立任务[6]。清华大学的靳晓明等人针对跨域的文本分类，提出跨域的主动学习方法[17]。该方法有效地结合了不同数据源的特征，自动从多数据源中抽取同质特征并区分异构特征，从而有效的选取样本进行主动学习。南京大学的周志华带领的课题组提出分类算法中应使用代价区间（cost interval）而不是精确的代价值，因为实际应用中，用户常常只能判断各类错误的相对严重性而无法给出精确描述。他们提出的 CISVM 算法将cost interval应用于SVM，比使用任何单一代价的标准SVM减少了60%的风险[21]。? ? ? ?他们还进一步提出名为 MAHR的分类算法。该算法可以自动发现分类结果之间的关联关系，从而提高分类精度[13]。在多类标的学习中，由于每个样例可以和多个类标关联，可能的类标集非常多，导致多类标分类和预测常常比较困难。东南大学的张敏灵等人使用贝叶斯网络刻画类标之间的依赖关系，将多类标学习问题分解为一系列的单类标分类问题，从而在多个数据集上超越了现有方法的效果[44]。流数据分类是分类学习中的一个重要分支，集成学习是对流式数据进行分类的常用方法，但线性扫描每个分类器会带来很大的时间开销。中科院的张鹏等人提出了一种新颖的Ensemble-tree(E-tree)方法，利用类似 R-tree 的高度平衡的结构将流数据分类中集成学习的复杂度由线性降低到次线性[41]。? ? ? ?概率图模型是数据挖掘中的重要基础工具，北京大学的宋国杰等人提出基于重叠分解的概率图模型[8]，其基本思路是将原始的概率图分解为若干小的概率图进行求解。其论文给出理论证明，求解出这样的近似分解和对原始概率图模型进行一步正则化处理是等价的。中国科技大学的俞能海等人还将概率图模型应用于个人简介的自动抽取，基本思路是用马尔可夫逻辑网络实现信息抽取并自动生成类似维基百科的页面[20]。? ? ? ?无监督的聚类和话题学习是数据挖掘领域研究的另一个核心问题。清华大学的张长水等人提出了从多重相关、随时间变化的语料库中挖掘文本簇演变的方法。他们通过加入相邻时间片的依赖，将层次化irichlet 过程（HD