基于大数据的数据挖掘算法实现与应用研讨.pptVIP

  • 17
  • 0
  • 约1.73千字
  • 约 19页
  • 2017-05-08 发布于湖北
  • 举报

基于大数据的数据挖掘算法实现与应用研讨.ppt

基于大数据的数据挖掘算法实现与应用研讨

基于大数据的数据挖掘算法实现与应用 关联规则与Apriori算法 1.基础理论 2.Apriori算法在学校排课中的应用 3.Apriori算法在遥感数据挖掘中的应用 BP神经网络与BP算法 1.基础理论 2.BP网络和BP算法 3.BP算法在投资估算中的应用 内容概要 1.目前在我国,“数据海量,信息缺乏”数据迅速增加与数据分析方法滞后之间的矛盾越来越突出。 研究的背景和意义 3.数据挖掘从大量的数据中提取出隐藏在数据之后的有用的信息,被越来越多的领域所采用,并取得了较好的效果。 2.目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息. 关联规则与Apriori算法 一、关联规则 反映了一个事物与其他事物之间的相互依存性和关联性。 二、Apriori算法 Apriori算法是挖掘关联规则的最典型算法。 Apriori算法在学校排课中的应用 背景 1.国内各高校对成绩的分析处理一般都还停留在古老的查询、统计的时代。而对于学生取得的这些成绩与课程之间的关系有没有关联没有做深入的了解,没有发现这些存储的成绩是重要的排课依据。 2.如果能够合理开发利用这些资源,利用数据挖掘的方法分析这些学生成绩,找到课程之间的相关关系,必将对课程的开设安排具有重要的指导作用。 建模过程 (1)数据清洗:为了便于进行数据挖掘,只选择01届计算机专业的学生的8门课程成绩作为挖掘对象 (2)数据转换:由于学生的数据都是由数值形式表示的连续的数,而编写的Aprior算法程序是是处理离散数值的,因此,需要将所收集到的数据进行转化,转换为优、良、中、及格、不及格5个等级。 (3)数据挖掘:数据挖掘过程主要是利用Apriori算法,采用广度优先的迭代搜素,首先找出频繁1-项集,用查找频繁2-项集,依次类推,直到求出所有的频繁项集。当发现某频繁项集的数目为零,则计算停止。 (4)结果分析: 由得到的结果可知,有很多课程的相关关系和教学经验是相符的。 例如,说明《C++程序设计》成绩在70—80分之间,《计算机网络》也在80—90分之间的支持度为55.8%,置信度为87.2%,说明学好《C++程序设计》对学好《计算机网络》起到关键作用,以后排课时可以将《C++程序设计》排在前。 Apriori算法在遥感数据挖掘中的应用 背景 1.随着遥感平台的丰富和传感器技术的发展,获取的RSI数据量十分巨大,并且很多遥感数据是复杂且带有噪声的,加大了我们对其进行高效处理和提取有用知识的难度。 2.我们迫切需要一种新技术从这些海量的遥感数据中提取有效的信息。 建模过程 (1)数据处理:首次,为了将关联规则用于遥感图像数据,需要对得到的数据进行离散化处理。即需要将图像数据转化为事物数据库的形式。 植被覆盖分割标准 (2)数据挖掘:利用Apriori算法进行数据挖掘,得到的关联规则是{植被覆盖度、坡度、降水量 山火发生概率} (3)结果分析: 从上表中可以发现,坡度高,降水量多容易发生林场火灾;坡度低,降雨量低,植被覆盖率低,发生林火的概率不是很大。 将Apriori算法引入遥感影像数据挖掘领域,对影像关联挖掘中的事物中的事物、项、基集、关联规则进行定义,考虑关联规则的支持度和置信度,提取感兴趣的知识点。 BP网络和BP算法 1.BP网络 BP网络是一种多层网格结构,由输入层,隐藏层和输出层组成,各层之间采用全互连接,但是同一层单元间不互连接。 2.BP算法 BP算法在投资估算中的应用 背景 1.投资估算是工程项目在前期可行性研究阶段的重要工作环节,它对新建项目投资方案的决策起着重要的决定作用。同时,也决定着新建项目的经济和社会效益。 2.在政府农业项目投资迅速增长的同时,陆续出现了一些不和谐现象。这些现象的出现有许多方面的原因,但是可行性研究阶段投资估算不准确是一个重要的原因。

文档评论(0)

1亿VIP精品文档

相关文档