高校科技信息数据挖方法研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高校科技信息数据挖掘方法研究 朱新星1,任建辉z,朱近2,石学彬, (1.南京农业大学,江苏南京210095;2.南京理工大学,江苏南京210094) [摘要】将数据挖掘技术应用于高校科技管理领域是一种新的尝试。以南京农业大学科技信息管理系统 为实验数据源,使用Apriori算法对数据源中的人员、论文和项目信息进行关联规则的挖掘,结果表明,南京 农业大学传统专业的优势十分明显,大农学学科产生的科研成果在全校科研成果总量中所占权重较大,同 时,从教师的年龄和职称所得到的关联规则显示,教师的年龄越大、职称越高,主持项目的频度越高。 [关键词】数据挖掘;关联规则;Apiori算法;信息系统;科技管理 高校具有部门多、功能复杂、管理方式多样等特点。 数据仓库的一般方法。但数据挖掘技术在科技管理方面 当前学校对信息系统的使用主要是进行日常事务的处 的研究与应用未见相关报道。本文采用Apfiori关联规 理,而长期积累的历史数据得不到有效开发利用。如何 则对南京农业大学科技信息管理系统中的相关信息进 对这些数据进行重新利用,将现有的管理数据转化为可 行挖掘研究,并获得了一些有用的结果。 供使用的知识,加强学校管理决策正确性,提高管理水 一、数据挖掘与关联规则 平和办学质量,是很多高校正在考虑的问题之一。 目前解决这一问题的主要方法是采用数据挖掘 数据挖掘是指从数据集合中自动抽取隐藏在数据 (Data 中的那些有用信息的非平凡过程,用于帮助决策者分析 Mining)技术;这是一种从大量的、不完全的、有噪 声的、模糊的、随机的数据中,提取隐含在其中的、人们事 历史数据及当前数据,并从中发现隐藏的关系和模式, 先不知道的、但又是潜在有用的信息和知识的过程…。在 进而预测未来可能发生的行为。数据挖掘的过程也叫知 国外,数据挖掘技术己经成功应用于政府管理决策、商业 in 识发现(KnowledgeDiscovery 经营、科学研究、工业制造和企业决策支持等领域[2-s]。与过程,是一种新的信息处理技术。目前采用较多的数据 国外相比,我国的数据挖掘研究还处于起步阶段。目前。 挖掘技术有:关联规则、决策树、分类、聚类、粗糙集、神 国内的许多科研单位和高等院校竞相开展数据挖掘的 经网络、遗传算法等。根据KDD的目标选取相应算法的 基础理论及其应用研究。其中,北京系统工程研究所对 参数、分析数据得到模式模型,把最有价值的信息区分 模糊方法在知识发现中的应用进行了较深人的研究,北 出来,并且通过决策支持工具提交给决策者。 京大学也在开展对数据立方体代数的研究,华中理工大 关联规则是描述一个事物中某些属性同时出现的 学、复旦大学、浙江大学、中国科技大学、中科院数学研 规律和模式的分析规则。关联规则的挖掘问题可形式化 究所、吉林大学等单位开展了对关联规则开采算法的优 的描述如下:设I=(il,i:,…,i。l为所有项目的集合,D是 化和改造;南京大学、四川联合大学和上海交通大学等 事务数据库,事务T是一个项目子集(TcI)。每一个事 单位也在从事研究非结构化数据的知识发现以及Web 务具有唯一的事务标识。关联规则表示为x=Y的逻辑 数据挖掘技术。 蕴含式,其中x亡I,YCl,并且xnY=书。关联规则 在基于高校信息管理系统的数据挖掘研究中[6-9],X=Y成立的条件是:(1)它具有支持度S,即D中至少 介绍了应用数据挖掘技术,重点研究学生的学风、成绩、 有s%的事务包含x和Y;(2)它具有置信度C,即在D 就业、图书利用、人事管理等方面的问题【”],讨论了建立 中包含X的事务至少有c%同时也包含Y。其中关联规 [收稿日

文档评论(0)

sdfgrt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档