让沉睡的数据说话.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
让沉睡的数据说话 大数据时代的使命   2012年,美国发起的“大数据”研究吸引了全球的目光。奥巴马称:“通过提高我们从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全并改变教学研究。”透露出美国进行大数据研究的重要目标之一——教育。   为了推动大数据的研究,美国联邦政府的部门和机构宣布新的2亿美元的投资,“提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平。”   “大数据”时代的脚步悄然而至,高校也身在其中。在高教学会信息化分会青委会 日前举行的一次技术论坛上,一直专注于数据分析与挖掘工作的清华大学信息化技术中心袁芳做的一个报告引起了与会者的共鸣:《如何在大数据时代掘宝?》她认 为,高校也正面临着大数据所带来的挑战与机遇。“随着互联网应用的丰富,每个学生和老师每天都在生产着各种各样的数据,当数据量达到一定级别后,就可以进 行很有意义的分析挖掘工作。”她认为,海量数据的分析将对教育信息化产生深刻的影响和冲击。她觉得,“高校也要关注大数据技术的研究和应用,智谋未来。”   大数据时代势不可挡。相关人士表示,未来的十年将是一个“大数据”引领的智慧科技时代。随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富。更多的传感设备、移动终端接入到网络由此产生的数据及增长速度将比历史上的任何时期都要多,都要快。   目前,几乎所有的高校都在进行数据中心的扩建,因为这两年数据的发展与前几年比较已经不是一个数量级,以往数据中心的空间已经无法适应当前快速发展的要求。“目前我校数据资源正以每年30%到50%的速度在增长。”中央财经大学信息网络中心主任叶新恩说。   在北京师范大学,校务管理信息系统数据有500~600G,校园卡系统日记 1TB~2TB,校园网日记数据大约有1TB。“从存储购买量的增长来看,2011年学校大约增加存储400TB,尤其是一些理科科研单位,如气候气象数 据,遥感影像数据等存储量很大,其他教学类资源存储量也非常大。”北师大网络与信息中心主任刘臻说。   在清华大学,目前电子校务系统的运行业务数据大致有1.5 亿条,这还并不包括系统日志、校园卡交易等流水数据,换算到存储量的话,大致是7~8T的样子,其中并不包括视频等流媒体数据。   另外,非常关键的是,高校当今数据库里的内容不仅是多,而且结构已发生了极大改变,大量的数据是非结构化数据。据统计,全球结构化数据增长速度约为32%,而非结构化数据增速高达63%。这个趋势在高校亦然。   袁芳认为,对于传统的结构化的数据,由于已经达到一定数量,以关注其应用为主,而对于正在生长的海量的非结构化数据,则要关注怎么收集、用什么方式有效管理。“学校正在掌握着越来越多活的数据,这为我们提供了新的方向——寻找某个规律背后的原因。”她说。   复旦大学信息化办公室主任宓詠认为,从沉淀的数据中发现有价值的信息,深入挖 掘、综合利用、转化为知识,才是信息系统真正价值的体现,而这方面可拓展的空间几乎是不可限量的。从管理的角度来看,如何充分利用信息系统中的数据,是系 统实施之后最重要的工作,也是长期的工作。   数据挖掘前的准备   数据挖掘,也称为数据库中的知识发现,是从数据库中的数据抽取隐含的、未知的 和潜在有用的信息(如知识规则、约束和规律等) 的非平凡的过程。确切地讲,数据挖掘是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析各组织原有的数据,做出归纳的推理, 从中挖掘出潜在的模式,为管理人员决策提供支持。   国外高校教学管理中, 数据挖掘已成为提高教学管理质量与水平的一种有力工具。如美国学校能够以85%的精确度去预测学生的升学率, 从而把注意力集中在辍学风险比较大的学生身上。而在国内, 数据挖掘在各领域的运用与实践尚不普遍, 不少的企业或部门仍处于观望与考虑之中, 在高校教学管理中的应用更是有待于人们去深入地研究。   从海量数据中寻找出有意义的规律,并为高校未来的发展提供决策上的支撑,使高校迈入“智慧”的校园,是信息化数据挖掘的最终目标。   “要实现很好的数据分析,需要有两个前提条件:一是足够的数据量;二是数据必须是可用的、真实的,这就需要数据质量的保证。”袁芳说。   但是目前普遍存在的问题是数据质量不高。许多高校的数据分析、利用仍停留在初级水平,数据很难被发掘利用也反映了在系统建设和使用过程中的数据不准确、不精确、不一致等诸多质量问题。   宓詠表示,目前的数据工作主要存在以下几个方面的问题。   第一,数据整合做得不深入。现在,整合是大势所趋,是高校信息化建设必须面对 的挑战。一方面,随着信息化应用的深入和普及,各业务间出现了大量的数据交换需求;由于时间积累、建设方式多样和系统耦合度因

文档评论(0)

yyh892289 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档