- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
软件工程数据挖掘进展分析.doc
软件工程数据挖掘进展分析
【摘要】随着改革的开放,科技的飞速发展,科技的发展 速度已经超过了人们的脚步,近年来,我们国家的计算机技术 越来越成熟,计算机软件也越来越广泛,人们从前获取计算机 软件信息的方法是手动获取,但手工获取的信息量是有一定限 度的,不能满足现代软件的需求,所以,为了解决这个问题, 本文着重于软件工程数据挖掘的研究进展。分别从几个不同的 方面对软件工程数据挖掘研究进行了探讨。
【关键词】软件工程;数据挖掘;数据表示;数据预处理; 机器学习
1前言
软件工程的数据挖掘指的是在大量的数据中发现有用的信 息。因为软件工程的发展前景很广阔,而且软件工程数据挖掘 是软件开发不可或缺的一部分,所以现在在软件工程领域以及 一些相关领域内软件工程数据挖掘的研究非常火热,人们都争 取尽量提高软件工程数据挖掘的速度,有用信息比率,以及智 能识别等。从而让软件工程更具特色,为人们提供更大的便利。
2基本概念与技术挑战
2. 1基本概念
软件工程在软件开发过程中会累计很多的数据,包括文档 数据,测试数据以及用户数据和用户反馈数据,软件工程的开 发者为了获取软件的信息就要使用这些数据,但是软件工程开 发的软件越来越大,软件工程的数据量不再是手工可以处理的 数量级,而且及其复杂,所以人们使用传统的方法来收集数据 是非常困难的,基本上是不可能的,所以人们必须研究快速处 理数据的方法,也就是软件工程数据挖掘技术。
2. 2软件工程开发的过程及其相关信息
软件工程开发时所需要的最重要的一条基本原则就是软件 工程学,软件工程学讲的就是软件工程开发。软件工程开发的 基本步骤如下,首先进行可行性分析,需求分析,开发者需要 先进性调研,来确定用户对软件功能的需求,在确定了大致的 软件开发方向之后,开发者开始编写软件代码,然后根据代码 的测试进行修改完善,在软件公布之后要持续地为软件进行维 护,升级。在软件的开发阶段,每个开发者都不完全了解整个 开发的过程,同时又不知道软件的整体信息,所以这些开发者 如果缺少这些信息,他们就会无法进行继续开发,从而导致停 工。
2. 3软件工程的数据挖掘过程与任务
软件工程数据挖掘主要有三项任务,第一步是对数据进行 预处理,第二步是对数据进行挖掘,第三步是对挖掘的结果进行分析。①数据预处理,待挖掘的大量数据混杂在了一起,它 们的格式和形式是否适合进行数据挖掘,是否符合当前任务的 数据特征,这些都是未知的,需要对其进行预处理,预处理就 是将大量的数据进行改造,使其都变成适合进行挖掘的形式, 并且变成符合任务的数据,整个数据挖掘过程中,预处理是最 费时费力的过程,主要的手段是将数据向量化和将数据降维处
理。②数据的挖掘,数据的挖掘其实就是对预处理之后的数据
进行整体探索,找到其中一些有用的信息,所谓有用的信息,
进行整体探索,
找到其中一些有用的信息,所谓有用的信息,
指的就是反应本质的数据,还有比如一些具有一定的规律的数 据,将这些数据找出来就是软件工程数据挖掘的目的,数据的 挖掘主要分为几种,又频繁序列的整理,关联规则的整理,还 有对数据进行分类等。③软件工程数据挖掘的结果分析,结果 分析像是对一项工程进行检测验收一样,对挖掘之后的数据信 息进行检测,将有用的信息展示出来,也就完成了整个软件工 程数据挖掘过程,这些挖掘之后的数据很有价值,对计算机软 件和客户的使用效果而言有着重要的意义。
3软件工程数据挖掘面临的挑战
因为软件工程的数据与其他的普通数据不同,所以软件工 程数据的处理有着很大的困难,其困难主要有三个方面:①软 件工程的数据复杂化;②软件丁程的数据处理非传统;③对于 软件工程数据挖掘的结果分析的标准非常严格。
3. 1数据复杂化
软件工程的数据主要分为两大类:①结构化数据;②非结 构化数据了。首先结构化的数据主要由缺陷报告和版本信息组 成,而非结构化的数据则是由代码和文档组成。这两类数据不 能使用同一种算法进行计算,但是这两类数据之间又包含者重 要的对应关系,比如一个版本信息中对应包含着一定的文档, 而一个代码中又有着缺陷报告,这种纠缠不清的关系让人们很 难对其进行整体分析,所以人们为了在数据挖掘时将这两种数 据同时挖掘出来,必须开发与之对应的新型算法,这样才能保 证不漏掉很多有着复杂关系的结构化数据和非结构化数据。
3. 2非传统分析
上文提到,软件工程数据挖掘的过程最后的步骤就是对挖 掘之后的数据信息进行分析评估,而数据的处理结果最终要交 到客户手中,对于客户的各种不同的数据需求,开发者要将挖 掘之后的数据进行格式上的转变,这样大大地降低了软件工程 数据挖掘的效率,而且往往客户要求的信息远远不止一种信 息,有时还会需要具体的事例,编程的代码,缺陷的报告等等 信息,所以,软件工程数据挖掘技术还需要进行
文档评论(0)