大数据挖掘知识体系与人才培训.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据挖掘知识体系与人才培训

大数据挖掘知识体系与人才培训 个人简介: 王昊奋,华东理工大学讲师,上海交通大学计算机应用专业博士,对语义搜索、图数据 库以及Web挖掘与信息抽取有浓厚的兴趣。在博士就读期间发表了30余篇国际顶级会议和期刊论 文,长期在WWW、ISWC等顶级会议担任程序委员会委员。作为Apex数据与知识管理实验室语义 组负责人,他主持并参与了多项相关项目的研发,长期与IBM、百度等知名IT企业进行合作,在知 识图谱相关的研究领域积累了丰富的经验。 正文: 众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有 通过分析才能获取很多智能的、深入的、有价值的信息。 越来越多的应用涉及到大数据,而这些大数据的属性、包括数量、速度、多样性等等都是呈现了大 数据不断增长的复杂性。从而,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最 终信息是否有价值的决定性因素。 从最近的大数据及其技术挑战一文中,提到了从大数据创造价值是一个多步骤过程,包括:数据获 取、信息抽取和清理、数据整合,建模和分析,解释和部署等。大数据分析的普遍方法理论,主要 与以下几个部分的知识有着密切关联。下面我就抛砖引玉,以此介绍这些领域所涉及的知识,和相 关课程以及一些开源工具等。 lInformation Retrieval and Web Search 信息检索与Web搜索 ,信息检索是指从大规模数据 集合中搜索满足我们需求的信息(通常是非格式化数据,如文本); lData Mining 数据挖掘 ,大数据分析的理论核心就是数据挖掘算法,指从大量的数据中通过算法 搜索隐藏于其中信息的过程。正是因为有这些数据挖掘的算法,我们才能更快速的处理大数据; lMachine Learning 机器学习 ,机器学习理论主要是设计和分析一些让计算机可以自动“学习” 的算法。通过机器学习算法,计算机从数据中自动分析获得规律,并利用规律对未知数据进行预测 ; lNatural Language Processing 自然语言处理,对于文本类型的数据,自然语言处理是必不可 少的一门学科。通俗的讲,自然语言处理是探讨如何让计算机“理解”自然语言; lKnowledge Representation and Semantic Technologies 知识表示和语义技术 ,相比前 面所提到的智能算法不同,这里更强调智能数据(smart data ),研究数据的表示,尤其是语义表 示和上层对应的推理、查询、和语义搜索等应用涉及到的技术; 除了上面这些和计算机相关的课程,数学基础知识是其基础。上述的许多课程,都会涉及到数学知 识,如概率论、代数、最优化等等,因此,数学的基础知识也是必不可少的内容。 当然这些课程并没有包括大数据挖掘的全部,多媒体挖掘,计算机视觉、数据可视化、并行计算和 分布式存储等都未涉及。 下面我将具体介绍每一个领域,其涉及的和大数据挖掘相关的技术点,并将就一些基础内容展开作 为大数据人才培训和各种需要大数据相关人才招聘的参考。 ⻚码: 1/9 一. 信息检索和Web搜索 1. 爬虫(crawling) 这个记得在之前也有相关专家做过分享,这是数据获取的基础,经过这么多年的发展,除了面对 surface web(即表层Web,由网页沟通,网页之间通过超链接关联)的常用爬虫,各种面对垂直 领域和特定主题的爬虫(focused crawler )成为热点。他是实现去哪儿,etao等站点的基础。 另一方面,随着各种动态页面技术的发展,以及javascript客户端类库的丰富和普及,包括各种动态 页面的深度网络(deep web)大量出现,相比surface web中page由超链接关联,这里的交互通 过表单填充和大量HTTP请求(包括Ajax等异步调用)来完成页面的跳转和关联,因此deep web crawler也成为热点。 此外,随着社交网站的普及,以及各种传感器网络的建立(物联网,车联网,智能家居等),数据 更多的呈现动态性(velocity ),因此,爬虫的范畴也逐步扩展到面对数据流的监视,过滤和在线订 阅等。 相应地和complex event processing(CEP),topic publishing/subscribing (

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档