- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据挖掘知识体系与人才培训
大数据挖掘知识体系与人才培训
个人简介: 王昊奋,华东理工大学讲师,上海交通大学计算机应用专业博士,对语义搜索、图数据
库以及Web挖掘与信息抽取有浓厚的兴趣。在博士就读期间发表了30余篇国际顶级会议和期刊论
文,长期在WWW、ISWC等顶级会议担任程序委员会委员。作为Apex数据与知识管理实验室语义
组负责人,他主持并参与了多项相关项目的研发,长期与IBM、百度等知名IT企业进行合作,在知
识图谱相关的研究领域积累了丰富的经验。
正文:
众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有
通过分析才能获取很多智能的、深入的、有价值的信息。
越来越多的应用涉及到大数据,而这些大数据的属性、包括数量、速度、多样性等等都是呈现了大
数据不断增长的复杂性。从而,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最
终信息是否有价值的决定性因素。
从最近的大数据及其技术挑战一文中,提到了从大数据创造价值是一个多步骤过程,包括:数据获
取、信息抽取和清理、数据整合,建模和分析,解释和部署等。大数据分析的普遍方法理论,主要
与以下几个部分的知识有着密切关联。下面我就抛砖引玉,以此介绍这些领域所涉及的知识,和相
关课程以及一些开源工具等。
lInformation Retrieval and Web Search 信息检索与Web搜索 ,信息检索是指从大规模数据
集合中搜索满足我们需求的信息(通常是非格式化数据,如文本);
lData Mining 数据挖掘 ,大数据分析的理论核心就是数据挖掘算法,指从大量的数据中通过算法
搜索隐藏于其中信息的过程。正是因为有这些数据挖掘的算法,我们才能更快速的处理大数据;
lMachine Learning 机器学习 ,机器学习理论主要是设计和分析一些让计算机可以自动“学习”
的算法。通过机器学习算法,计算机从数据中自动分析获得规律,并利用规律对未知数据进行预测
;
lNatural Language Processing 自然语言处理,对于文本类型的数据,自然语言处理是必不可
少的一门学科。通俗的讲,自然语言处理是探讨如何让计算机“理解”自然语言;
lKnowledge Representation and Semantic Technologies 知识表示和语义技术 ,相比前
面所提到的智能算法不同,这里更强调智能数据(smart data ),研究数据的表示,尤其是语义表
示和上层对应的推理、查询、和语义搜索等应用涉及到的技术;
除了上面这些和计算机相关的课程,数学基础知识是其基础。上述的许多课程,都会涉及到数学知
识,如概率论、代数、最优化等等,因此,数学的基础知识也是必不可少的内容。
当然这些课程并没有包括大数据挖掘的全部,多媒体挖掘,计算机视觉、数据可视化、并行计算和
分布式存储等都未涉及。
下面我将具体介绍每一个领域,其涉及的和大数据挖掘相关的技术点,并将就一些基础内容展开作
为大数据人才培训和各种需要大数据相关人才招聘的参考。
⻚码: 1/ 9
一. 信息检索和Web搜索
1. 爬虫(crawling)
这个记得在之前也有相关专家做过分享,这是数据获取的基础,经过这么多年的发展,除了面对
surface web(即表层Web,由网页沟通,网页之间通过超链接关联)的常用爬虫,各种面对垂直
领域和特定主题的爬虫(focused crawler )成为热点。他是实现去哪儿,etao等站点的基础。
另一方面,随着各种动态页面技术的发展,以及javascript客户端类库的丰富和普及,包括各种动态
页面的深度网络(deep web)大量出现,相比surface web中page由超链接关联,这里的交互通
过表单填充和大量HTTP请求(包括Ajax等异步调用)来完成页面的跳转和关联,因此deep web
crawler也成为热点。
此外,随着社交网站的普及,以及各种传感器网络的建立(物联网,车联网,智能家居等),数据
更多的呈现动态性(velocity ),因此,爬虫的范畴也逐步扩展到面对数据流的监视,过滤和在线订
阅等。
相应地和complex event processing(CEP),topic publishing/subscribing (
您可能关注的文档
- 基于电弧复小波检测的单相自适应重合闸 - 电力系统保护与控制.pdf
- 基于相关分析的肖像素描漫画生成系统 - 计算机应用与软件.pdf
- 基于目标特征提取与识别.pdf
- 基于社交网络的图数据挖掘应用研究.pdf
- 基于离散小波变换多种纹理特征提取的草细胞图像分割比较 - 核农学报.pdf
- 基于稀疏张量的人脸图像特征提取 - 吉林大学学报.pdf
- 基于离散余弦变换的图像局部特征描述子的图像局部特征 - 计算机工程.pdf
- 基于稳定特征的鞋印图像识别方法研究.pdf
- 基于空间数据库的几种常用空间索引技术研究 - 广东省测绘学会.pdf
- 基于粗糙集和随机森林算法辅助糖尿病并发症分类研究 - 江西师范大学 .pdf
最近下载
- JGJ1962010建筑施工塔式起重机安装、使用、拆卸安全技术规程.doc
- 施工岗位安全风险告知卡(全套).pdf
- 羿射九日(二) 逐字稿 二下语文 同上一堂课.docx VIP
- ISO22301:2021程序文件-业务连续性承诺方针.docx VIP
- ISO22301-2019程序文件全套 .doc VIP
- 羿射九日(一) 逐字稿 二下语文 同上一堂课.docx VIP
- ISO22301:2021程序文件-风险机会控制程序.docx VIP
- 2022-2023学年广东省广州市天河区高一(下)期末物理试卷(附答案详解).docx VIP
- 大学毕业设计-说明书jwb100滚珠丝杠升降机结构设计.doc
- 计算机视觉应用开发 第5章 图像语义分割.ppt
文档评论(0)