改进的Pattern Matrix算法在图书管理中的应用.docVIP

改进的Pattern Matrix算法在图书管理中的应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进的Pattern Matrix算法在图书管理中的应用.doc

改进的Pattern Matrix算法在图书管理中的应用   摘要:根据用户的信息和图书借阅所产生的数据,分析用户的需求,利用改进的Pattern Matrix算法,从中挖掘出用户数据间的关联性,自动判断用户可能的借阅需求,从而将相关的图书信息推送给用户,增强图书管理的主动服务功能。   关键词:数据分析;数据挖掘;Pattern Matrix算法;改进   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)33-7577-04   1 Pattern Matrix算法的优缺点   Pattern Matrix算法,是一种建立矩阵模式的关联规则算法。它的基本思想就是通过对事务集D的扫描,将其中的N个事务及这些事务所涉及的M个项目转换成二进制代码0和1,并将这些二进制代码以矩阵的方式进行排列,然后通过矩阵各行进行的与运算,产生新矩阵,保留并输出,产生频繁项集K,直至矩阵中剩下一行或者为0时,才停止频繁项目集的产生。   这种算法最突出的优点就是,在计算时只需对数据库进行一次扫描,这样就在很大程度上减少了数据挖掘所耗费的大量时间。扫描后所产生的数据是逻辑型数据,以矩阵的形式加以保存。数据挖掘的过程与结果通过逻辑运算加以实现,这样就可以节省数据空间并提高挖掘效率。   按照这种算法,最终产生的K频繁项目集是关联性最强的,最符合关联规则的要求。在实际的数据测试中,我们发现,利用Pattern Matrix算法,一般最多只能产生2-3个事务间的关联,事务间关联的支持度很高,一般都可以在80%以上。但在图书管理系统在,我们一般设定的最小支持度都定义在40%-50%左右,目的就是为了能让用户得到更多有关联的资源信息。也就是说,支持度越高,事务间的关联性越强,可供选择的信息越少,也就意味着系统对客户需求信息的获取减少了。比如,通过Pattern Matrix算法,系统最终产生了电子类图书和机械类图书之间的关联信息,那么很可能与之相关的计算机类,数学类,物理类图书就会被屏蔽掉,相关的这些信息也就不会最终传递给客户,图书的资源也就不会被充分的利用,这就与我们当初制定的目标背道而驰了。   2 Pattern Matrix算法的改进   2.1 算法改进的基本思路   通过上述分析,可以得知Pattern Matrix算法的最大不足在于可关联的事务太少,当矩阵行数满足其要求时,其矩阵内每一项事务二进制数据基本上都是1,说明该频繁集内的每一项目所代表的信息都是要被一直使用着。这就极大的缩小了系统获取客户需求的空间,而在图书管理系统中,我们希望系统能够通过关联规则提取客户至少4个需求信息。   通过实验,我们发现,利用Pattern Matrix算法在对矩阵进行简化的过程中,当矩阵的行数开始等于或者小于5行的时候,我们停止矩阵的简化,那么在绝大多数情况下,事务间的关联性基本都在4个以上,这就可以满足我们的要求。也有极个别情况下,事物间的关联性少于4个,经验证发现是客户本身对系统提供的信息过少,或者是客户个人的借阅信息很少造成的。   比如,当矩阵行数为3行时,每行之间会存在事务的重复,如图1所示,矩阵P中3行共包含了5个事务,其中, X1行和X2中Y4事务重复,X1行和X3行中Y1、Y5事务重复,X2行和X3行中Y2、Y6事务重复。   在这种情况下,既要避免在最终的频繁项目集中出现重复的事务,又要满足最终频繁项目集中要出现4个及以上的事务关联,所以在这里,我们提出,可以利用FP-Growth算法的基本思想来对Pattern Matrix算法进行改进。   2.2 算法改进的基本原理   FP-Growth算法的核心是通过对数据库的扫描建立一棵频繁树(FP-Tree),即通过扫描数据库,定义一个根节点N,该根节点分成2部分,一部分用作表头,一部分用作数据库中扫描得到的项目集的链接,通过链接,项目集就成为了这根节点的一个分支点,这样在数据库中每次扫描一个项目,就遍历根节点上是否存在该项目集,如果存在就放入该分支点,如果不存在就建立一新分支点,从而构成一棵频繁树。   建立频繁树,系统的消耗量很大,但是各分支点的消耗量不大,模式矩阵通过Pattern Matrix算法的不断简化,当矩阵行数低于5行时,K-频繁集中的项目比原始数据库已经大大的精简了,此时我们利用这一原理基本思想,不建立频繁树,而是建立一数据链表,这样既可以将矩阵中重复的项目汇总并建立新的频繁集,又可以克服Pattern Matrix算法强关联性的缺点,增加频繁集。凡是能满足系统最小支持度的频繁集都可以保留下来,增加了系统事务间的关联性。   3 改进的算法在图书管理系统中的应用   通过上面的理论描述分析,可以看出改进

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档