不确定数据流高效用频繁模式挖掘研究(论文)综述.docxVIP

下载本文档

3
0
约1.91万字
约 14页
2021-03-19 发布于河北
举报
版权申诉

不确定数据流高效用频繁模式挖掘研究(论文)综述.docx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

项目名称不确定数据流高效用频繁模式挖掘研究项目负责人（签名）所在学校（盖章） 1．本项目研究意义及国内外同类研究工作现状（附主要参考文献及出处）：研究意义：本课题将“高效用频繁模式”的概念，及“跨数据流”和“跨事务”的组合模式概念拓展到不确定数据流领域，提出在多重不确定数据流上进行模式挖掘建模及算法研究的计算框架；其算法实现（作为开源软件发布）也可为数据分析行业的频繁模式挖掘提供计算工具。研究背景、现状和动机：频繁模式以事件发生的频度为依据，揭示数据表象所可能隐含的规律。例如，从金融数据流中识别出的频繁模式可用于发现可疑交易线索，医疗图像中的频繁模式可用于病灶的识别和分类等。随着社会行业对数据分析技术的需求演进，频繁模式挖掘的数据对象也从确定性数据、布尔型事件（事件发生与否）拓展到不确定数据（ uncertain data ）和包含效用（ utility ）的数据。数据的不确定性来源于数据产生、收集、存储和传输过程中的随机性因素、预处理中的统计计算、或数据概念本身的概率属性等；例如，根据对电子商务网站页面的访问记录，只能获得潜在客户对特定商品购买倾向的一个估计，即一个概率性指标。数据的“效用”值表示该数据的利润或重要度；例如购物单中商品的单价和数量等。由于数据的不确定性和数据的效用属性普遍存在于现实世界各个领域中，因此近年来高效用模式（ high utility pattern ）挖掘和不确定数据频繁模式挖掘等研究逐渐成为数据挖掘领域的研究热点之一。但是，目前不确定数据集上的频繁模式挖掘，仅仅考虑了模式的期望支持数，而没有考虑到模式的效用值；同时缺乏对多数据流及模式的时间关联的综合考虑，难以满足数据分析行业的计算需求：首先，在许多领域应用中，事件的“效用” （即收益，数值型属性）可能具有不确定性。例如，根据特定的投资策略对金融历史数据进行回测时，由于高频数据的随机波动性，预定的成交时间和成交价格不可能被精确实现，实现的收益也是一个不确定数据。因此，效用概念的建模应该导入不确定性，以适应此类计算需求。其次，随着大数据应用的发展，特别是互联网、物联网的海量数据流和金融领域的高频数据的迅猛发展，数据流的综合分析已经成为大数据研究的关注点之一，因为对多个相互间有内在关联的数据流的综合分析（即 “跨流”分析），比仅仅分析单个数据流，更容易发现事物潜在的规律和模式。例如，综合大气温度、云层分布、风力变化等数据，对于估计未来飓风的形成，要比单独依赖一个因素更为可靠；根据多只股票的交易数据，结合社会和企业的经济状况，及各事件在时间上的先后关系（即“跨事务”关联）等信息，来寻找市场的发展趋势，比单纯考察一只股票的数据更为合理。因此，应考虑在多重数据流上、并考虑到模式之间的时间关联进行模式挖掘的建模研究。综上所述，频繁模式挖掘领域的科学研究，其发展趋势，应将研究对象拓展到包含效用信息的多个不确定数据流上，研究其高效用频繁模式挖掘的相关模型及算法。此研究有着强烈的社会需求背景，其成果可广泛应用于金融业、商业、制造业、气象、环境、医疗乃至社会人文统计等各个领域。国内外研究现状分析：传统的频繁模式挖掘处理的是确定性的非数值型数据（ “字面”数据），其典型算法包括 Apriori [1]、FP-Growth [2]和 H-Mine [3] 等。随着不确定数据的迅速发展和业界对事务项效用值的重视，近年来，高效用模式挖掘和不确定数据上的频繁模式挖掘成为数据挖掘领域的热点之一，在 KDD 、ICDM 、PAKDD 、 ICDE 等重要会议和数据挖掘领域顶级期刊 TKDE 等上也多有关注（参见表 2 和表 3）。目前，模式挖掘研究主要集中于单个数据集或数据流；下面分别介绍不确定数据集上频繁模式挖掘、高效用模式挖掘、多重数据流及跨事务（事务间）模式挖掘，和模式挖掘并行算法的研究现状。不确定数据中频繁模式挖掘不确定数据是带有概率属性的数据；如表 1 所示，不确定数据集中的每个事务项，都包含一个概率值，表示该事务项发生的概率。表 1 一个不确定数据集的例事 ID 事集 t1 (a: 0.8), (b: 0.7) (d: 0.9), (f: 0.5) t2 (c: 0.8), (d: 0.85), (e: 0.4) t3 (c: 0.85), (d: 0.6), (e: 0.6) ? ? 不确定数据集 D 中的频繁模式 X 用其期望支持数描述，该期望支持数定义为，其中 t 是事务， P(X, t)根据独立同分布原则由 X 中的所有事务项在事务 t 中的概率的乘积给出。不确定数据集上