- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(1)研究大数据源特性和社会网络用户共同特征 (2)研究微博群体兴趣及其社会关系关联性问题描述与大数据挖掘模型 (3)建立大数据离群挖掘优化组合启发式模型 (4)大数据离群挖掘的新兴BI应用模式研究 第11届(2013)信息管理与电子商务院长、主任专业建设与学术年会 2013年12月14日 夏火松 博士 教授 博导 大数据情景下离群数据挖掘与商务应用 提纲 1 问题的提出 2 研究的过程与研究方法 3 Big Data情景下Outlier研究问题 4 Big Data情景下Outlier的商务应用 OUTLIER 离群数据挖掘(OUTLIER)问题最早就被提出(Hawkins,1980),现有的对离群数据(有的称为孤立点)的处理方法主要研究如何减少离群数据对正常数据的影响,或仅当作噪音对待 。而现实的大数据中离群数据一方面伴有大量的噪音 ,另一方面又可能包括极有价值的信息。从算法上大部分的研究集中在关系的发现、类别的判定和类别的描述,而忽视了离群数据的存在和意义。离群数据的发现主要有三种研究方法:统计学的方法、基于距离的方法和基于偏离的方法。 1 问题的提出 从科学研究上:随着新一代的互联网、物联网等技术的发展,处理速度、容量限制和数据质量发生了深刻的变化,大数据时代已经来临(邬贺铨院士,2012),以“数据驱动”为特征的新兴商务智能应用模式正在发生变化。利用大行为数据和大交易数据进行的大数据挖掘分析与应用的重要性已经得到先进企业关注并开始应用。大数据具有体量大、类型多样复杂、快速、价值稀疏等特性(李国杰,2012)。这种价值的稀疏(大海捞针)特性,正好适合离群数据挖掘在大数据中找出有价值的模式与知识。 离群数据挖掘能够从隐藏在大量的社会网络关系数据中发现一些不易发现的未知知识,能从微博社会网络关系中分析重要突发事件的回应与正面积极的回应,为决策者提供重要的、极有价值的信息或知识,从而产生不可估量的效益。现有数据挖掘的研究一部分研究集中于算法的改进与提出上,另一部分集中于挖掘内容上的关系。 从教学上:基于数据挖掘的信息分析理论与技术成为未来信管与电商专业的重要内容。 [B] 数据仓库与数据挖掘技术 夏火松 - 2004 - abook.cn 本书详细阐述了数据仓库与数据挖掘的基本原理, 系统而全面地介绍了数据仓库与数据挖掘的概念, 作用, 算法和应用举例, 并且给出了信息分析所涉及到的若干问题及框架. 本书介绍了最新的信息分析技术研究成果, 如小波分析, Rough 分析, 蚁群分析, 分形技术, ...被引用次数:152 - 2 研究的过程与研究方法 文献探索 关键词 领域作者 重要期刊 图 1 基于big data 的OUTLIER与BI应用 设计科学 Design as an Artifact Problem Relevance Design Evaluation Research Contributions Research Rigor Design as a Search Communication of Research 大数据的4V特性 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 大数据时代三大变革 思维变革 商业变革 管理变革 更多:不是随机样本,而是全体数据 更杂:不是精确性,而是混杂性 更好:不是因果关系,而是相关关系 数据化:一切皆可“量化” 价值:“取之不尽,用之不竭”的数据创新 角色定位:数据、技术与思维的三足鼎立 风险:让数据主宰一切的隐忧 掌控:责任与自由并举的信息管理 维克多在《大数据时代》 基于SQL语言: 面对OLAP的传统行和列 不基于SQL或map-reduce的: 由谷歌率先发起 数据流: 基于运行商数据直接生成任意图形 新平台技术 数据入口/汇聚 数据平台 分析 不同范围的服务 传统交付模式?-?单片或基于设备的解决方案 云: 能够充分利用物理设施的弹性,以实现处理快速增长数据的能力 “数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。” - Forrester analyst Jim Kobielus 新的传输方案 新模式和新技术 利用用
文档评论(0)