- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1
PAGE 1
大数据挖掘的粒计算理论与方法
粒计算是特地研究基于粒结构的思维方式、问题求解方法、信息处理模式的理论、方法、技术和工具的学科,是当前智能信息处理领域中一种新的计算范式。 粒计算——大数据挖掘的新途径 粒计算是特地研究基于粒结构的思维方式、问题求解方法、信息处理模式的理论、方法、技术和工具的学科,是当前智能信息处理领域中一种新的计算范式。从人工智能角度来看,粒计算是模拟人类思索和解决大规模复杂问题的自然模式,从实际问题的需要动身,用可行的满足近似解替代精确解,达到对问题的简化、提高问题求解效率等目的。从数据分析与处理层面看,粒计算通过将复杂数据进行信息粒化,用信息粒代替样本作为计算的基本单元,可大大提高计算效率。粒计算主要包括数据粒化、多粒度模式发觉与融合、多粒度/跨粒度推理等核心研究内容。大数据的表现性态、大数据挖掘面临的挑战、基于大数据的复杂问题建模与粒计算框架的契合之处主要表现在以下3个方面。 1、大数据经常具有多层次/多粒度特性 1990年,我国闻名科学家钱学森先生在其论文《一个科学新领域||开放的复杂巨系统及其方法》中就指出:\只有一个层次或没有层次结构的事物称为简洁的系统,而子系统种类许多且有层次结构,它们之间关联关系又很复杂的系统称为复杂巨系统。任何一个复杂系统都是一个具有层次结构的系统。Friedman等在Science上发表的论文认为在诸如复杂细胞网络、蛋白质互作用网络等生物大数据中都广泛存在着多层次、多尺度特性。Clauset等在Nature上发表的论文也指出,在复杂社会网络中也存在天然的层次结构。Ahn等则特地研究了大数据的多尺度复杂性。闻名社会网络科学家Watts在其提出的小世界网络研究中,也指出网络中嵌套的诸多社区内部也满意小世界网络的要求。大数据往往来自于对复杂的自然/人工巨系统的观测记录,或者由人类社会系统借助网络自主产生。这就意味着,反映复杂巨系统形态及运动规律的大数据必定隐含着由这些系统所打算的局部与整体关系,以及复杂的层次结构,即数据的多粒度/多层次特性。 2、挖掘任务通常呈现多层次/多粒度特性 数据挖掘总是面向实际应用的,即使面对同一个数据集,用户需求的多层次/多粒度特性也打算了挖掘任务的多层次/多粒度特性。比如,在金融大数据领域,决策任务可能是面向国家层面、区域层面,或者是地方层面的,甚至是面向某个银行的;也可能是面向不同种类的存款、贷款,或理财产品。这就使得挖掘任务可能同时面向不同层面、不同方面。挖掘任务的多层次/多粒度特性必定要求数据挖掘工具不仅能够从不同视角探索大数据不同层面隐含的模式,而且还能够进行复杂有效的融合、自动的跳转,以及便捷的定制。 3、大数据挖掘要求算法具有高效近似求解性 在2012年出版的大数据著作《大数据时代:生活、工作与思维的大变革》中指出:大数据意味着全部数据。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。因此,大数据挖掘首先要解决\大数据能算的问题,这就要求对大数据进行合理的分解,即大数据集的粒化,然后采用并行处理策略,MapReduce正是基于这种策略在大数据管理方面的实践结果。 基于大数据的复杂问题建模往往具有极其复杂的结构,这就要求大数据挖掘算法能够根据任务的要求自动地或人机交互地从大数据中抽取与组织出具有多层次/多局部特征的结构,并能在这种复杂结构上进行推理,以达到挖掘的预期目标。 大数据挖掘算法的高效近似求解特性,主要来自于用户对挖掘过程、挖掘结果的时效性要求,大数据的巨量增长性对在线挖掘技术提出了严峻挑战。与传统的小数据集上的挖掘与学习不同,大数据的混杂性、不确定性,以及高噪声对\独立同分布假设的破坏使得追求问题的最优/精确解变得几乎不可能,迫使我们转向查找问题的满足近似解。另一方面,满足近似解在许多环境下已能很好地满意实际应用的需要,无需一味追求问题的最优/精确解。 综上分析可知,从隐含于大数据中的结构特征,大数据挖掘任务的类型特征,到大数据挖掘算法的性能特征,综合这些角度,大数据挖掘的计算框架与粒计算所蕴含的计算范式具有高度契合性。鉴于这一熟悉,可以推想:粒计算将为大数据挖掘供应一条极具前途的崭新途径。 现状分析 早在1979年,美国闻名掌握论专家Zadeh就首次提出了模糊信息粒化问题。他认为,人类认知能力可概括为粒化(granulation,全体分解为部分)、组织(organization,部分集成为整体)和因果(causation,因果的关联)3个主要特征。1985年,Hobbs提出了粒度(granula
原创力文档


文档评论(0)