- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
山东科技大学毕业实习报告_数学院
毕业实习报告
学院名称 数学与系统科学学院 专业班级 信息与计算科学2011级1班 学生姓名 马春慧 学号 201101051417 指导教师 王永丽
二〇一五年四月
评 定 意 见
毕业实习成绩:
指导教师对毕业实习的评语:
指导教师(签章):
2015年 4月 5 日
毕业实习指导小组的评定意见:
教学院长(签章):
系主任(签章):
2015 年4月 7 日
毕业实习报告
马春慧 信息与计算科学2011级1班
实习地点:山东科技大学
实习时间:2015年3月09日~4月03日
一、实习任务
本次实习的主要是为毕业设计做前期的准备工作,主要完成了以下任务:
1. 围绕毕业设计题目搜集相关资料和数据;
2. 学习关联规则与Apriori算法;
3. 巩固运用MATLAB软件编程的知识。
二、实习内容
本次实习的主要目的是为毕业设计做前期的准备工作。我的毕业设计题目是“基于大数据时代的关联规则与Apriori算法”,为此,在实习期间主要围绕毕业设计题目进行了相关的学习与资料收集。
资料收集与相关理论的学习
关联规则
关联规则反映了一个事物和其他事物之间的依赖性和关联度,其中一个事物能够通过其他事物预测到,关联规则挖掘是数据挖掘中最典型的研究方法之一,如对大学生每学期考试成绩的分析,对超市中的购物篮数的分析,通过发现顾客放入购物篮中的不同商品之间关系的分析来发掘顾客的购物习惯。
关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和信任度。
关联规则定义为:
假设
是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。
Apriori算法:使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
Apriori算法采用了逐层搜索的迭代的方法,算法简单明了,没有复杂的理论推导,也易于实现。但其有一些难以克服的缺点:
(1)对数据库的扫描次数过多。
(2)Apriori算法会产生大量的中间项集。
(3)采用唯一支持度。
(4)算法的适应面窄。
MATLAB软件编程
MATLAB和Mathematica、Maple并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。
MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完成相同的事情简捷得多,并且MATLAB也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C,FORTRAN,C++,JAVA的支持。
MATLAB 产品族可以用来进行以下各种工作:
●数值分析
●数值和符号计算
●工程与科学绘图
●控制系统的设计与仿真
●数字图像处理技术
●数字信号处理技术●通讯系统设计与仿真
●财务与金融工程
●管理与调度
文档评论(0)