- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二讲
提高现代数据处理意识与处理能力的动员报告
阮吉寿
南开大学数学科学学院信息与概率系
jsruan@nankai.edu.cn
摘要
计算机的飞速发展改变了我们的生活的方方面面。我们面对的是越来越多的数据。向这些堆积成山的数据挖掘信息,就是直接或间接地为社会的各行各业创造财富。数学的个人英雄主义时代即将过去,解决现实社会中的实际问题是学问的必然回归。这需要现代数据处理技术。不识字是文盲,不懂现代科学技术是科盲,这些都已经成为了共识。不懂现代数据处理技术会是什么呢?当然就是“数盲”。试想,见到一堆数据什么也看不出来,这与旧社会连自己的名字都读不懂的文盲有何异?当今社会,充斥了数据。有多大的数据处理能力,就会带来多大的财富。现代的处理数据的学问,不能停留在少数专家学者的论文和书斋里,这样根本适应不了庞大的市场需求。现代数据处理技术不仅需要我们的学生来传承,更需要他们将其发扬光大。学习、掌握、创新现代数据处理方法是时代的要求,也是提升综合素质的最佳模式。娴熟地掌握现代数据处理技术,是应该从大学本可开始抓起。 通过我校百项工程,我已经欣喜地考到了我们的部分同学已经有了很强的数据处理的意识,希望继续发扬光大。
前言
数据是一个广泛内涵的名词,在多数人的大脑中形成的固定的概念是以一些观测到的数字的集合。按照现代的观点来看,数据从类型上至少可以分为以下三大类:
字符串形式储存的数据(人类语言类文章,计算机语言,DNA序列,蛋白质序列,…)
数值形式储存的数据(数列,矩阵,表格,…)
声音与图像形式储存的数据(录音带,图像,基因芯片,…)
因此,自从有了人类以来,人类就在自觉不自觉地与数据打交道。但是,有些数据处理的能力是与生俱来的,例如,听与说母语是生存本能所决定的。特别在混合居住地区,很多人可以不上学就能懂得好几种语言(这是上天的恩赐,而不代表个人天赋)。
在数学人的眼中,上述所有数据,都可以转化为数值型的数据。因此人类早就开始了数据处理,只是没有像今天这样专门以报告形式提出来。不是吗?信息论,信号学,数值代数,概率统计,机器学习,计算机软件,图像处理,数据挖掘等等,哪一个不是应数据处理的需求而产生的?至少可以说,哪一个不需要数据处理技术?
当然,从难易程度来分,数据处理的能力可以按如下比例划分:
大约50%数据处理能力对于绝大部分人是与生俱来的。
比如,区分颜色,辨别声音,简单交流思想,数数,简单分类等等。
大约30%数据处理能力对于绝大部分人是要后天通过科普学习才能掌握的。
比如,驾车,修理,推销,投保,理财,广告,装璜,算术,网页浏览,收发电子邮件,短信,文字编辑等等。
大约15%数据处理能力对于绝大部分人是要后天通过刻苦学习才能掌握的。
比如,语义分析,信息论,信号分析,数值代数,概率统计,机器学习,计算机软件,图像分析,密码学,数据挖掘等等。
大约5%的数据处理能力对于绝大部分人是学也学部会的,这就是创造数据处理工具的能力。
掌握此能力就是此行业的顶级专家。他们是根据实际需求,随着科学技术和认识世界的知识体系不断增大而实时地创造出或者普及相应的数据处理技巧。
现代数据处理的概况
所谓现代数据处理,我们将之界定为1980年代至现在的,基于计算机科学的所有数据处理方法。具有浓重的计算特征,因此也不妨称为计算数据处理(computational data processing)。大致可以划分为以下几个大的板块:
数据挖掘(Data Mining)
嵌入技术(Embedology)
数据融合(Data Fusion)
随机图理论(Random Graph)
机器学习 (Machine Learning)
所有内容,无不基于很强的数学背景知识,特别是线性代数、频谱分析、信息论、概率论,数理统计,随机过程。我们以下以简要地按历史顺序,将代表性的方法列举出来。
上述图形仅仅是现代数据处理中的部分内容的关系示意图,我们不可能将所有内容立体呈现出来。下面就上述5个小题继续展开。
数据挖掘。了解数据挖掘,了解线性代数与数据挖掘的关系的最佳文献是Lars Elden 2006年发表的重要文献题为: Numerical Linear algebra in data mining,我曾经作为Math Review义务评论员,在写评论时给予了该文高度的赞赏(将发表),原评论如下:
This paper offers a best mode to extract all “nodes” and “edges” from the huge benchmark set of the 118 literatures scattered in many fields and over about a 70-year perio
文档评论(0)