基于候选集相似度度量计算.docVIP

下载本文档

7
0
约3.82千字
约 8页
2018-08-28 发布于福建
举报
版权申诉

基于候选集相似度度量计算.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于候选集相似度度量计算

基于候选集相似度度量计算　　摘要：关联规则的数据挖掘作为数据挖掘的一种重要模式，已成为目前数据挖掘领域的一个非常重要的研究课题。其中如何度量和寻找有效的候选集一直是众多学者研究的课题之一。本文在置信度及其兴趣度度量的基础上，提出了产生候选集的相似度度量计算方法，并对比了该方法和置信度及其兴趣度之间的联系，并利用相关结论进一步讨论了大数据集环境下如何更加有效地计算相似度的度量计算方法。　　关键词：数据挖掘；关联规则；事务间关联规则　　中图分类号： TP274 文献标识码： A 文章编号： 1673-1069（2016）12-145-3 　　0 引言　　关联规则的数据挖掘分为事务内关联规则（Intra-Transaction）的数据挖掘和事务间（Inter-Transaction）关联规则的数据挖掘。非经典关联规则挖掘始终会面临所谓的“高阶逻辑”问题。对股价描述，特别是对一些基于（标的股票）价格之上的衍生资产，如期货或期权，这样的表述会更准确些，即在N维空间下（随机过程）的套利测量场。对其直接套用泛Apriori算法是不合适的。　　当以基于事务的观点应用滑动窗口技术将股票原始事务数据库D转化为扩展事务数据库De时会大量出现这样一个很有趣（是因为它有别于经典购物篮的高支持度）也很值得注意的现象。因为得到的扩展事务数据库De往往会很大数据集很丰富，但就某只股票在某个时间点上的事件出现频率计数。（例如，如果以一只股票当天收盘价比上一天收盘价超过2%作为一次事件发生记为1否则记为0。那么就在前不久，上证指数从16.01.04开盘的3536.59一路跌到16.01.29收于2737.60。期间共有二十个交易日，1只出现过三次，其他都记为0。支持度为3/20=0.15。韶钢松山从16.01.04开盘价14.28元一路跌到16.01.29的收盘价12.21元。期间共有20个交易日，1出现了5次，其他都记为0。支持度为5/20=0.25。显然，它们的支持度都很低。那么能由此推断出走势背后的资金流没有关联吗？肯定不是，资金流之间的进出绝对是有关联的。这其中暗藏的有趣关联肯定还不少。）与整个扩展事务数据库De数据集相比结果很小甚至小到都可不予考虑即支持度显然很低。然而依“规则的可信度是指包含I1和I2的事务数与包含I1的事务数之比”来看置信度却较高。这其中有许多有趣的关联规则它们支持度很低但置信度却较高，如果一味用传统的挖掘算法会很难发现这些（有趣的）关联规则。　　事务间关联规则通常的支持度都较低。在对支持度很低但置信度很高的关联规则进行挖掘时，用最小支持度门槛值的算法显然不够有效。对此本文打算用相似度来衡量事务间可能产生关联规则的项，进而得到事务间关联规则，而且还可用来挖掘感兴趣的事务间多个项间排斥规则。　　1 相似关联规则挖掘算法　　1.1 兴趣度及其相似度量　　复旦大学的施伯乐教授在文献中提出了基于差异思想的兴趣度定义，用以指导关联规则的发现。其定义规则X=Y的兴趣度为：　　这个定义是由关联规则的支持度和可信度而产生的，分母只是个标准化因子，使得| Interest（X=Y）|1。根据这个定义，一条关联规则的兴趣度越大于0，说明对这条规则越感兴趣；一条关联规则的兴趣度越小于0，说明对这条规则的反面规则越感兴趣。　　可事先由用户指定最小兴趣度阀值minInterest，若Interest（X=Y）的绝对值越大于minInterest，说明Y的支持度与规则X=Y的信任度的差异越大，我们说规则X=Y是新奇的，用户对这些规则越感兴趣；若Interest（X=Y）的绝对值小于minInterest时，说明Y的支持度与规则X=Y的信任度差异较小，则可以说规则X=Y不是新奇的，不会引起用户对该规则感兴趣。　　1.2 相似度度量方法　　事务间的特征或多或少都会存在一定的相似性，相似性是普遍存在的，其间差别只在相似程度多少而已。具有高支持度的关联规则往往是显然的大家比较熟悉的规则，而相比较而言，低支持度关联规则可能更具新颖性和有趣性。　　相似关联规则挖掘的初衷是用置信度度量来替代支持度度量，为了便于运算引入了相似度度量，因为它极好地近似了置信度的概念。对原始数据库利用相似度进行关联规则挖掘，首先需要把原始数据库转换成0/1矩阵。转换方法是：原始数据库的每一项将生成新0/1矩阵的一列；原始数据库的每一个事务将生成新0/1矩阵的一行。如果第i个项在第j个事务中出现，那么这个矩阵的第j行第i列取值为1，反之没有出现就取值为0。　　2 基于相似度及其最小哈希变换的候选集挖掘　　2.1 基于相似度候选集挖掘　　鉴别相似列对的算法包括三个阶段：计算特征标识、产生候选集和对已产生候选集进行剪枝。第一阶段