基于数据挖掘的软件测试技术研究讲义.ppt

下载文档 降价啦

0
0
约6.34千字
约 33页
2017-02-17 发布于湖北
举报
版权申诉
保障服务

基于数据挖掘的软件测试技术研究讲义.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于数据挖掘的软件测试技术研究讲义

基于数据挖掘的软件测试技术研究摘要软件的可靠性对社会，经济，国防等都有着巨大的意义，而要提高软件的可靠性，必须对软件进行大量的测试。但是由于条件的限制，必须在资源耗费和测试效果之间达到平衡。如何以最小的代价进行尽量高效的测试，是一个值得研究的问题。因此，数据挖掘技术作为一种处理海量数据的有效方法被引入到软件测试中，也产生了许多成果。软件测试中有两个典型的“数据过量”问题：一个是测试用例的选择：由于软件输入空间十分巨大，将所有这些输入全部检验是不现实的，因此必须用某种方法将输入空间分成若干“等效的”类，在每个类中选择少量元素作为测试用例，从而减少测试用例的数量。另一个是与Bug报告的分析：由于越来越多的软件采用了自动报告Bug的方式以便可以准确地获得软件Bug信息，这种方法对于Bug数据的收集是非常有效的，但软件开发人员往往无法对过多的Bug数据进行处理，造成了信息浪费。因此必须找到一种自动化的方法对这些数据进行分析。本文针对以上两个问题，介绍和提出了使用数据挖掘技术的解决方案，即： 1．缩减测试用例：在复杂软件的测试中，其输入空间几乎是无限的，因此不可能将全部的测试用例都输入到待测软件中执行。解决的方法就是通过某种方式选择其中最有代表性的一部分对待测软件进行测试，称作测试用例的缩减。数据挖掘技术可以作为缩减测试用例的一种有效方法。 2．对Bug报告的分析：由于许多当代的软件可以自动监测异常运行状态并将相关数据发送给软件开发者，软件开发者往往要面临大量的Bug数据，如果对这些数据逐一分析是十分费时费力的，利用数据挖掘方法，自动对这些数据进行处理，缩小问题空间。数据挖掘数据挖掘是通过分析，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示三个步骤： 1.数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集； 2.规律寻找是用某种方法将数据集所含的规律找出来； 3.规律表示是尽可能以用户可理解的方式（如可视化）将找出的规律表示出来数据挖掘的技术基础是人工智能，仅利用了人工智能中一些己经成熟的算法和技术，例如：人工神经网络(Artificial Neural Networks) 遗传算法(Genetic Algorithms) 决策树(Decision Trees) 邻近搜索方法(Nearest Neighbor Method) 规则推理(Rule Induction) 模糊逻辑(Fuzzy Logic) 等等..... 遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法由三个基本算子(或过程)组成： 1.繁殖(选择)，即从一个旧种群(父代)选出生命力强的个体，产生新的种群(后代)的过程。 2.交叉(重组)，即选择两个不同的个体(染色体) 的部分(基因)进行交换，形成新个体的过程。 3.变异(突变)，即对某些个体的某些基因进行变异((0变19或l变0)，形成新个体的过程。数据挖掘的主要分析方法 1．关联分析(Associations) ，关联分析的目的就是为了挖掘出隐藏在数据间的相互关系。 2．序列模式分析(Sequential Patterns) 序列模式分析和关联分析法相似，其目的也是为了挖掘出数据之间的联系，但序列模式分析的侧重点在于分析数据间的前后或因果关系。 3．分类分析(Classifiers) 假定记录集会和一组标记(TAG)，所谓标记是指一组具有不同特征的类别。分类分析时首先为每一个记录赋予一个标记，按标记分类记录。 4．聚类分析(Clustering) 与分类分析法不同，聚类分析法的输入集是一组未标定的记录，也就是说此时输入的记录还没有被进行任何分类。其目的是根据一定的规则，合理地划分记录集合。信息-模糊网简介信息-模糊网(Info-FuzzyNetwork，以下简称IFN) 是由以色列Bcn-Gurion大学的Mark Last提出的一种基于信息论的分类方法，与传统基于信息论的分类方法相比，在保证分类精度的同时可以得到比较简约的分类规则。信息-模糊网的结构与决策树不同，IFN具有网状的，类似神经网络的分层结构 IFN由一个根节点，若干个中间层，和一个目标层构成。 IFN的每个中间层只对应一个待分类的属性，第L中间层的一个节点表示前L个输入属性值的并。如果某个属性为连续变量，需要将其离散化。目标层的每个节点表示目标属性的一个值，如果目标属性是连续量，则目标层表示若干不相交的区间。其中，直接与目标层节点相连的中间层节点称为