数据挖掘系统实现图书馆书目推荐基于SQL SERVER 2005.docVIP

下载本文档

4
0
约4.54千字
约 8页
2018-06-24 发布于河南
举报
版权申诉

数据挖掘系统实现图书馆书目推荐基于SQL SERVER 2005.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘系统实现图书馆书目推荐基于SQL SERVER 2005

一、绪论数据挖掘（DM data mining）是从大量的，不完全的，有噪声的，模糊的，随机的数据中，提取隐含在其中的，人们事先不知道的，但又是潜在的有用的信息和知识的过程。而我们的图书馆的数据库中积累了大量的读者借阅历史数据,这些数据中隐藏着大量重要信息,利用这些信息我们可以挖掘出读者对图书资源的借阅偏好模式。于是我们便利用微软SQL SERVER 2005中的数据挖掘关联规则模块建立一个在线书目推荐服务系统，以提高图书馆的服务水平。二、问题分析 ?? 关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。在SQL SERVER 2005 中的关联规则用的是优先关联族算法，即FP-树频集算法[HPY00]。该算法在从大数据量中寻找频繁项集非常有效，在效率上较之Apriori算法有巨大的提高。具体运作时分两步分析：第一步通过已过精确计算的表达式寻找出项集；第二步是基于频繁项集产生规则。第二步需要的时间会明显少于第一步。下面我们了解下该算法涉及的一些关键指标：指标名含义支持度 (Support)支持度对项集形成有影响。用于描述项集出现频度的指标，最低支持度（Minimum_Support）意为只对达到指定频度的项集感兴趣，如果指定最低支持度为小于1的值则微软关联规则认为你只对频度达到指定百分比的项集感兴趣。比如0.03表示项集支持度只有占到总项集数的3％才能形成项集。最大支持度（Maximum_Support）则指定了项集出现频度的上限，超过上限的项集也不是我们感兴趣的。概率 (Probability)概率对规则的形成有影响。一条规则中有A的条件下会有B（A=B）的概率是指 Probability (A = B) = Probability (B|A) = Support (A, B)/ Support (A) 指定一定的最低概率值就可以限制形成的规则数。重要性（Importance）重要性对项集和规则形成均有影响。它的定义如下： Importance (A = B) = log (p(B|A)/p(B|not A)) 从定义知如果该值为0表示A和B没有关联性，正值表示一旦拥有A则再拥有B的概率会增长，负值表示一旦拥有A则再拥有B的概率会降低。三、??? 数据???备我们收集了兰州商学院图书馆2002年到2005年的读者借阅数据，数据库具体关系如下： ? “一次借阅标识”意义在于形成用户借阅的项集，举例说：甲乙（单次借阅标识分别是1和2）两人一次都借了3本书丙（单次借阅标识分别是3）一次借了两本，得到如下表所示记录：借阅历史表借阅流水号（主键）单次借阅标识（外键）书名11C#编程事件21.Net核心编程31.Net网络编程42ASP.NET高级编程52.Net核心编程62.Net网络编程73Windows API 速查手册83C#编程事件? 级联表约束单次借阅标识表单次借阅标识（主键）123如此我们便只要通过“单次借阅标识”即可区分不同用户的单次借阅。因为在每次借阅书籍时会先在单次借阅标识表中插入自增标识码，当借阅历史表增加新记录时便使用刚插入的自增标识码作为“单次借阅标识”，这样两张表便形成一对多的关系。之所以要有上面两张表，是因为SQL SERVER 2005在训练关联规则模型时要有事例表和嵌套表。所谓事例表即存放鉴定???次事务的标识信息的表，用户完成他的一次借阅（当然可以不止借一本）就是一次事务，一次事务只用一个标识。我们设定单次借阅标识字段为自增字段就恰恰满足这点，所以单次借阅标识表就成了我们的事例表。嵌套表即为事例表中事务的具体细节内容表，其间用“单次借阅标识”来将各条记录形成项集。四、开发步骤我们用“SQL Server Business Intelligence Development Studio”建立书目推荐服务程序，具体步骤如下：一、训练模型 1.选择商业智能项目中Analysis Services项目，建立BookHistoryAS项目 2.建立数据源，指定我们的SQL Server 2005实例为数据源，并指定初始数据库为我们存放借阅历史数据的数据库。 3.建立数据源视图，将上面提及的“借阅历史”表“单次借阅标识”表都选择进来。 4.建立挖掘结构 ①?选择“从现有关系数据库或数据仓库”中训练和开发模型。 ②?选择“Microsoft 关联规则”挖掘模型。 ③?指定“单次借阅标识”表为事例表，“借阅历史”表为嵌套表。 ④ 按图（一）设定键列和可预测列。 ? 图（一