- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第5章机器学习与实现关联规则概念布尔关联规则挖掘
关联规则概念第5章假设有以下数据,每行代表一个顾客在超市的购买记录。I1:西红柿、排骨、鸡蛋。I2:西红柿、茄子。I3:鸡蛋、袜子。I4:西红柿、排骨、茄子。I5:西红柿、排骨、袜子、酸奶。I6:鸡蛋、茄子、酸奶。I7:排骨、鸡蛋、茄子。I8:土豆、鸡蛋、袜子。I9:西红柿、排骨、鞋子、土豆。假如有一条规则:西红柿—排骨,则同时购买西红柿和排骨的顾客比例为4/9,而购买西红柿的顾客当中也购买了排骨的比例是?4/5。这两个比例参数在关联规则中是非常有意义的度量,分别称作支持度(Support)和置信度(Confidence)。支持度反映了规则的覆盖范围,置信度反映了规则的可信程度。
关联规则概念第5章在关联规则中,商品集合I={西红柿,排骨,鸡蛋,茄子,袜子,酸奶,土豆,鞋子}称作项集,每一个顾客购买的商品集合Ii称为一个事务,所有事务T={I1,I2,…,I9}称作事务集合,且满足Ii是T的真子集。项集是项的集合。包含k项的项集称作k项集,例如,集合{西红柿,排骨,鸡蛋}是一个3项集。项集出现的频率是所有包含项集的事务计数,又称作绝对支持度或支持度计数。假设某项集I的相对支持度满足预定义的最小支持度阈值,则I是频繁项集。频繁k项集通常记作k。假设有以下数据,每行代表一个顾客在超市的购买记录。I1:西红柿、排骨、鸡蛋。I2:西红柿、茄子。I3:鸡蛋、袜子。I4:西红柿、排骨、茄子。I5:西红柿、排骨、袜子、酸奶。I6:鸡蛋、茄子、酸奶。I7:排骨、鸡蛋、茄子。I8:土豆、鸡蛋、袜子。I9:西红柿、排骨、鞋子、土豆。
关联规则概念第5章一对一关联规则的形式如下:,A、B满足A、B是T的真子集,并且A和B的交集为空集。其中A称为前件,B称为后件。关联规则有时也表示形如“如果……那么……”,前者是规则成立的条件,后者是条件下发生的结果。支持度和置信度有以下计算公式:支持度表示为项集A、B同时发生的概率,而置信度则表示为项集A发生的条件下项集B发生的概率。
关联规则概念第5章多对一关联规则的形式如下:,A、B、…、K满足A、B、…、K是T的真子集,并且A、B、…、K的交集为空集。其中A,B,…称为前件,K称为后件,多对一关联规则的支持度和置信度计算公式如下:支持度表示项集A、B、…、K同时发生的概率,而置信度则表示项集A、B、…发生的条件下项集K发生的概率。
布尔关联规则挖掘(一对一)第5章布尔关联规则挖掘是指将事务数据集转化为布尔值(0或1)数据集,并在布尔数据集基础上挖掘关联规则的一种方法。ID土豆排骨茄子袜子西红柿酸奶鞋子鸡蛋I101001001I200101000I300010001I401101000I501011100………………布尔数据集示例
布尔关联规则挖掘(一对一)第5章1.事务数据集转化为布尔(0或1)值数据表算法如下:首先,定义一个空的字典D和包含所有商品的列表item=[西红柿,排骨,鸡蛋,茄子,袜子,酸奶,土豆,鞋子]。其次,定义一个长度与数据集长度(事务个数)相同的一维全零数组z。循环操作商品列表item,对每一个商品,搜索其所在事务序号(行号),并将事务序号对应的z位置修改为1,同时以商品作为键,z作为值,添加到字典D中。最后,将D转化为数据框。
布尔关联规则挖掘(一对一)第5章1.事务数据集转化为布尔(0或1)值数据表item=[西红柿,排骨,鸡蛋,茄子,袜子,酸奶,土豆,鞋子]importpandasaspdimportnumpyasnpdata=pd.read_excel(tr.xlsx,header=None)data=data.iloc[:,1:]D=dict()fortinrange(len(item)):z=np.zeros((len(data)))li=list()forkinrange(len(data.iloc[0,:])):s=data.iloc[:,k]==tiem[t]li.extend(list(s[s.values==True].index))z[li]=1D.setdefault(item[t],z)Data=pd.DataFrame(D)#布尔值数据表
布尔关联规则挖掘(一对一)第5章2.挖掘两项之间的关联规则(一对一),并将结果导出到Excel文件中#获取字段名称,并转化为列表c=list(Data.columns)c0=0.5#最小置信度s0=0.2#最小支持度list1=[]#预定义列表list1,用于存放规则list2=[
您可能关注的文档
- Python金融数据分析与挖掘(微课版) 课件 1-1. Python基本数据类型与基本数据结构.pptx
- Python金融数据分析与挖掘(微课版) 课件 1-2. Python公有方法.pptx
- Python金融数据分析与挖掘(微课版) 课件 1-3. Python基本数据结构方法.pptx
- Python金融数据分析与挖掘(微课版) 课件 2-1. 数组创建与操作.pptx
- Python金融数据分析与挖掘(微课版) 课件 2-2. 矩阵与线性代数运算.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-1.序列.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-2.数据框.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-3.外部文件读取.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-4.常用函数.pptx
- Python金融数据分析与挖掘(微课版) 课件 3-5.常用计算任务.pptx
文档评论(0)