- 4
- 0
- 约1.72万字
- 约 16页
- 2018-05-23 发布于重庆
- 举报
不确定数据流高效用频繁模式挖掘研究
项目名称 不确定数据流高效用频繁模式挖掘研究
项目负责人(签名)
所在学校(盖章)
1.本项目研究意义及国内外同类研究工作现状(附主要参考文献及出处):
研究意义:
本课题将“高效用频繁模式”的概念,及“跨数据流”和“跨事务”的组合模式概念拓展到不确定数据流领域,提出在多重不确定数据流上进行模式挖掘建模及算法研究的计算框架;其算法实现(作为开源软件发布)也可为数据分析行业的频繁模式挖掘提供计算工具。
研究背景、现状和动机:
频繁模式以事件发生的频度为依据,揭示数据表象所可能隐含的规律。例如,从金融数据流中识别出的频繁模式可用于发现可疑交易线索,医疗图像中的频繁模式可用于病灶的识别和分类等。随着社会行业对数据分析技术的需求演进,频繁模式挖掘的数据对象也从确定性数据、布尔型事件(事件发生与否)拓展到不确定数据(uncertain data)和包含效用(utility)的数据。数据的不确定性来源于数据产生、收集、存储和传输过程中的随机性因素、预处理中的统计计算、或数据概念本身的概率属性等;例如,根据对电子商务网站页面的访问记录,只能获得潜在客户对特定商品购买倾向的一个估计,即一个概率性指标。数据的“效用”值表示该数据的利润或重要度;例如购物单中商品的单价和数量等。由于数据的不确定性和数据的效用属性普遍存在于现实世界各个领域中,因此近年来高效用模式(high utility pattern)挖掘和不确定数据频繁模式挖掘等研究逐渐成为数据挖掘领域的研究热点之一。
但是,目前不确定数据集上的频繁模式挖掘,仅仅考虑了模式的期望支持数,而没有考虑到模式的效用值;同时缺乏对多数据流及模式的时间关联的综合考虑,难以满足数据分析行业的计算需求:
首先,在许多领域应用中,事件的“效用”(即收益,数值型属性)可能具有不确定性。例如,根据特定的投资策略对金融历史数据进行回测时,由于高频数据的随机波动性,预定的成交时间和成交价格不可能被精确实现,实现的收益也是一个不确定数据。因此,效用概念的建模应该导入不确定性,以适应此类计算需求。
其次,随着大数据应用的发展,特别是互联网、物联网的海量数据流和金融领域的高频数据的迅猛发展,数据流的综合分析已经成为大数据研究的关注点之一,因为对多个相互间有内在关联的数据流的综合分析(即 “跨流”分析),比仅仅分析单个数据流,更容易发现事物潜在的规律和模式。例如,综合大气温度、云层分布、风力变化等数据,对于估计未来飓风的形成,要比单独依赖一个因素更为可靠;根据多只股票的交易数据,结合社会和企业的经济状况,及各事件在时间上的先后关系(即“跨事务”关联)等信息,来寻找市场的发展趋势,比单纯考察一只股票的数据更为合理。因此,应考虑在多重数据流上、并考虑到模式之间的时间关联进行模式挖掘的建模研究。
综上所述,频繁模式挖掘领域的科学研究,其发展趋势,应将研究对象拓展到包含效用信息的多个不确定数据流上,研究其高效用频繁模式挖掘的相关模型及算法。此研究有着强烈的社会需求背景,其成果可广泛应用于金融业、商业、制造业、气象、环境、医疗乃至社会人文统计等各个领域。
国内外研究现状分析:
传统的频繁模式挖掘处理的是确定性的非数值型数据(“字面”数据),其典型算法包括Apriori[1]、FP-Growth[2]和H-Mine[3]等。随着不确定数据的迅速发展和业界对事务项效用值的重视,近年来,高效用模式挖掘和不确定数据上的频繁模式挖掘成为数据挖掘领域的热点之一,在KDD、ICDM 、1) 不确定数据中频繁模式挖掘
不确定不确定数据集
事务ID
事务项集
t1
(a: 0.8), (b: 0.7)
(d: 0.9), (f: 0.5)
t2
(c: 0.8), (d: 0.85), (e: 0.4)
t3
(c: 0.85), (d: 0.6), (e: 0.6)
…
…
不确定,其中t是事务,P(X, t)根据独立同分布原则由X中的所有事务项在事务t中的概率的乘积给出。
不确定的频繁模式挖掘算法主要分为逐层挖掘(level-wise)和模式增长(pattern-growth)两种基于AprioriFP-Growth算法。静态数据集
表2列出了重要算法及其特征。逐层挖掘
时间
研究者
论文出处
算法
方法
/精确
2007
Chui C K
Kao B
PAKDD 2007
U-Apriori[4]
level-wise, candidate-test
精确
2007
Leung C
S, Carmichael C L, Hao B
ICDM Workshops 2007
UF-Growth[5]
pattern-growth
精确
20
您可能关注的文档
- 一带一路对外投资中的环境附属省略模式以中国东盟自由贸易区为例朱雅妮pdf.doc
- 一幅画性格分析房树人.doc
- 一建建筑实物大型笔记静水.docx
- 一建市政基坑桥梁隧道安全事故预防知识要点.doc
- 一用普遍联系的观点看待人际关系.doc
- 一次函数解析式图像性质.doc
- 一热学探究题沸点温度计的使用.doc
- 一种可控机构式挖掘机构 .doc
- 一种高精度低功耗采样保持电路的设计.doc
- 一等奖教学设计认识小数.docx
- 抚顺石化工贸中心资金控制体系优化研究:理论、实践与创新.docx
- 探秘中华通草蛉滞育发育:生殖生物学特征与调控机制.docx
- 稀有鮈鲫受精机制及影响因素的深度剖析.docx
- 从美国强制反诉制度探寻我国民事诉讼反诉制度的革新路径.docx
- 中国职业足球管理体制:演进、困境与突破路径探究.docx
- 论我国网上个体经营活动法律规制的完善与实践.docx
- 论取保候审期间脱逃后又归案的自首认定困境与出路.docx
- 动调陀螺赋能双轴稳定平台控制系统的关键技术与优化策略研究.docx
- 论我国犯罪被害人国家补偿制度的构建与完善:法理、实践与发展路径.docx
- 光纤光栅传感监控软件:原理、应用与创新发展研究.docx
最近下载
- 2026年春教科版(新教材)小学科学二年级下册(全册)教学设计(附目录P91).pdf
- 2026年山东劳动职业技术学院单招(计算机)考试备考题库及答案解析(夺冠).docx VIP
- 超实用近五年(2021-2025)高考英语真题分类汇编:专题17 语法填空(全国通用)(原卷版).docx VIP
- 时尚流行文化解读.pptx VIP
- 文学类文本阅读青辰《梨花开了》【2023年四川省凉山州中考语文真题】.docx VIP
- 《毛笔楷书基础教程》职业院校书法课程全套教学课件.pptx
- (完整版)交管12123学法减分考试题库及答案.doc
- 2026年山东劳动职业技术学院单招(计算机)考试参考题库附答案.docx VIP
- 2025年教师资格考试高中学科知识与教学能力思想政治试卷与参考答案.docx VIP
- 基建项目财务咨询方案.docx VIP
原创力文档

文档评论(0)