改进的Pattern Matrix算法在图书管理中的应用.docVIP

下载本文档

3
0
约4.42千字
约 7页
2016-10-08 发布于北京
举报
版权申诉

改进的Pattern Matrix算法在图书管理中的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

改进的Pattern Matrix算法在图书管理中的应用.doc

改进的Pattern Matrix算法在图书管理中的应用　　摘要：根据用户的信息和图书借阅所产生的数据，分析用户的需求，利用改进的Pattern Matrix算法，从中挖掘出用户数据间的关联性，自动判断用户可能的借阅需求，从而将相关的图书信息推送给用户，增强图书管理的主动服务功能。　　关键词：数据分析；数据挖掘；Pattern Matrix算法；改进　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2013）33-7577-04 　　1 Pattern Matrix算法的优缺点　　Pattern Matrix算法，是一种建立矩阵模式的关联规则算法。它的基本思想就是通过对事务集D的扫描，将其中的N个事务及这些事务所涉及的M个项目转换成二进制代码0和1，并将这些二进制代码以矩阵的方式进行排列，然后通过矩阵各行进行的与运算，产生新矩阵，保留并输出，产生频繁项集K，直至矩阵中剩下一行或者为0时，才停止频繁项目集的产生。　　这种算法最突出的优点就是，在计算时只需对数据库进行一次扫描，这样就在很大程度上减少了数据挖掘所耗费的大量时间。扫描后所产生的数据是逻辑型数据，以矩阵的形式加以保存。数据挖掘的过程与结果通过逻辑运算加以实现，这样就可以节省数据空间并提高挖掘效率。　　按照这种算法，最终产生的K频繁项目集是关联性最强的，最符合关联规则的要求。在实际的数据测试中，我们发现，利用Pattern Matrix算法，一般最多只能产生2-3个事务间的关联，事务间关联的支持度很高，一般都可以在80%以上。但在图书管理系统在，我们一般设定的最小支持度都定义在40%-50%左右，目的就是为了能让用户得到更多有关联的资源信息。也就是说，支持度越高，事务间的关联性越强，可供选择的信息越少，也就意味着系统对客户需求信息的获取减少了。比如，通过Pattern Matrix算法，系统最终产生了电子类图书和机械类图书之间的关联信息，那么很可能与之相关的计算机类，数学类，物理类图书就会被屏蔽掉，相关的这些信息也就不会最终传递给客户，图书的资源也就不会被充分的利用，这就与我们当初制定的目标背道而驰了。　　2 Pattern Matrix算法的改进　　2.1 算法改进的基本思路　　通过上述分析，可以得知Pattern Matrix算法的最大不足在于可关联的事务太少，当矩阵行数满足其要求时，其矩阵内每一项事务二进制数据基本上都是1，说明该频繁集内的每一项目所代表的信息都是要被一直使用着。这就极大的缩小了系统获取客户需求的空间，而在图书管理系统中，我们希望系统能够通过关联规则提取客户至少4个需求信息。　　通过实验，我们发现，利用Pattern Matrix算法在对矩阵进行简化的过程中，当矩阵的行数开始等于或者小于5行的时候，我们停止矩阵的简化，那么在绝大多数情况下，事务间的关联性基本都在4个以上，这就可以满足我们的要求。也有极个别情况下，事物间的关联性少于4个，经验证发现是客户本身对系统提供的信息过少，或者是客户个人的借阅信息很少造成的。　　比如，当矩阵行数为3行时，每行之间会存在事务的重复，如图1所示，矩阵P中3行共包含了5个事务，其中， X1行和X2中Y4事务重复，X1行和X3行中Y1、Y5事务重复，X2行和X3行中Y2、Y6事务重复。　　在这种情况下，既要避免在最终的频繁项目集中出现重复的事务，又要满足最终频繁项目集中要出现4个及以上的事务关联，所以在这里，我们提出，可以利用FP-Growth算法的基本思想来对Pattern Matrix算法进行改进。　　2.2 算法改进的基本原理　　FP-Growth算法的核心是通过对数据库的扫描建立一棵频繁树（FP-Tree），即通过扫描数据库，定义一个根节点N，该根节点分成2部分，一部分用作表头，一部分用作数据库中扫描得到的项目集的链接，通过链接，项目集就成为了这根节点的一个分支点，这样在数据库中每次扫描一个项目，就遍历根节点上是否存在该项目集，如果存在就放入该分支点，如果不存在就建立一新分支点，从而构成一棵频繁树。　　建立频繁树，系统的消耗量很大，但是各分支点的消耗量不大，模式矩阵通过Pattern Matrix算法的不断简化，当矩阵行数低于5行时，K-频繁集中的项目比原始数据库已经大大的精简了，此时我们利用这一原理基本思想，不建立频繁树，而是建立一数据链表，这样既可以将矩阵中重复的项目汇总并建立新的频繁集，又可以克服Pattern Matrix算法强关联性的缺点，增加频繁集。凡是能满足系统最小支持度的频繁集都可以保留下来，增加了系统事务间的关联性。　　3 改进的算法在图书管理系统中的应用　　通过上面的理论描述分析，可以看出改进