数据挖掘算法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Timeweaver: a Genetic Algorithm for Identifying Predictive Patterns in Sequences of Events Abstract 从过去的序列事件学习预测未来事件是非常重要的。本文描述了 Timeweaver, 一个基于遗传算法的机器学习系统,可以通过识别数据中的预测性的临时和序列模 式来解决事件预测问题。 Timeweaver系统被用来预测通信设备故障。 Introduction 本文的重点是从时间标记事件序列中预测特定类型的未来事件,称之为目标事件。从告警信息日志中预测通信设备故障就是其中的一个例子。由于机器学习和统计方法不太适用于此类问题,本文采用遗传算法来解决事件预测问题。本文给出Timeweaver 的详细描述,其可以通过识别数据中预测模式来解决罕见事件预测问题。 The general approach 解决事件预测问题包括两个步骤: 第一步,使用遗传算法来寻找预测模式的空间,为了确定一套模式,可以很好地独立预测目标事件的子集和全面地预测大多数目标事件。 第二步,从最好到最坏对模式进行排序,主要根据它们预测的精度,并且除去冗余 的模式。 The genetic algorithm 对于事件预测的评估方法 使用信息检索度量其称为 F-measure,其定义如下式。 的值, 是控制回召精确性的相对重要性,其随着 GA 的每次迭代而改变,以便在 0 和 1 值之间循环使用。 Creating prediction rule 建立预测规则 描述了一个有效的算法,用来对通过遗传算法得到的预测模式进行排序和去除冗余模式。 Results 本文研究了从时间序列数据中预测带有分类特征的罕见事件。说明了罕见事件 预测问题如何配置成机器学习问题。解释了怎样通过 Timeweaver,基于遗传算法的机器学习系统来解决这一类问题,其通过未修改的事件序列数据来识别预测时间和 序列模式。 Predicting Telecommunication Equipment Failures from Sequencesof Network Alarms Abstract 本文描述了一个时间数据挖掘系统称为 Timeweaver,用于从网络告警信息日志中识别通信设备的故障。 Project Overview 在数据挖掘技术出现之前,用来在故障发生前识别该故障的系统有 : ATT’s ANSWER(Automated Network Surveillance with Expert Rules) system,但是其知识获取过程费时并且昂贵、通常不能获取重要的定量关系。 数据挖掘技术的出现极大的帮助了自动识别数据中的模式, 进而有利于网络性能 的监控管理, 作者介绍了一个数据挖掘系统 Timeweaver—— 从网络告警日志信息中识别预测通信设备故障。 本文提到的数据挖掘就是要识别网络告警日志里面的模式, 可以被用来预测通讯设备的故障。 KDD过程( Knowledge Discovery Databas知e 识发现数据库 ) 理解数据挖掘问题 KDD 过程的第一步包括理解应用领域以及 KDD 任务的目标。 在本例中, 我们需要理解以前的相关工作 (ANSWER expert system),目标是预测个体组件的故障。 对某个部件失效的正确预测, 是指这个预测结果在警告时间至监控时间内发生。警告时间是指在真正的失效发生前, 用户可以对预测的失效进行足够的响应的时间; 监控时间让用户对预测到的特征进行控制和处理。 模式语言 : 因为告警可以被一些不相关的问题引起, 所以模式语言应该能够具体说明告警和模式的正确匹配。 因为某些故障会在不同的时间以不同的方式表现出来, 所以模式语言应该保证在模式中,所有的告警顺序不会被改变。 因为时间是一个重要的因素,并且系统行为会因为错误的响应而发生改变, 所以一个模式应该与一个时间段关联起来。 选择目标数据集 目标数据集由通过系统的两个数据控制中心之一的数据库中收集的两周的告警数据组成。因为告警数量很多,并且每个告警的属性也很多,因此经过筛选选择了其中 5 个属性: 告警产生的时间 产生告警的设备的 ID 设备的类型 告警的特征码 告警的严重程度 time, device-id, device-type, diag-code, severity 预处理及转化数据 因为不用区别不同类型的故障,各种的故障告警被一个通用的故障告警替换。由于日常维护测试会引起失败的组件,从而产生额外的故障告警。因此使用一个简单程序应用到目标数据集来去除冗余的故障告警。 数据挖掘 主要包括选择数据挖掘任务和适用的挖掘算法,数据挖掘任务就是预测任务, 而选择的算法是时态

文档评论(0)

文档查询,农业合作 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体土默特左旗农特农机经销部
IP属地广西
统一社会信用代码/组织机构代码
92150121MA0R6LAH4P

1亿VIP精品文档

相关文档