2015数据仓库课设.docVIP

下载本文档

2
0
约4.74千字
约 13页
2016-12-18 发布于北京
举报
版权申诉

2015数据仓库课设.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《数据仓库与数据挖掘》课程设计报告班级：信管101 学号： 3100561021 姓名：黄彦芳指导教师：王建仁/段刚龙日期： 2012.01.04 1需求分析与数据理解 2 1.1需求分析 2 1.2 数据理解 2 2挖掘（或分析）数据准备 2 3 数据挖掘（或分析）过程 7 3.1挖掘算法与挖掘软件选择 7 3.2 数据预处理 7 3.3挖掘过程说明 8 4 结果展示与评价 9 5总结 9 5.1 设计中遇到的主要问题及解决方法 10 5.2设计方案的主要优点及不足 10 5.3 收获及建议 10 参考文献 11 题目 1需求分析与数据理解 1.1需求分析即明确挖掘目标和要求。(1)方法：在本次实验中我们采用了头脑风暴方法进行问题分析，在实验之前我们组在一起综合上面的方法商量并确定了分析什么数据？需要多少数据？如何进行各种数据的平衡？又需要什么转换才能进行有效的挖掘？如何对挖掘结果进行处理？如何提高借阅者的借阅效率和图书管理员的管理效率等；(2)任务：我们组每个人都根据自己的偏好选择了分析问题的角度，我选择的是关联分析方法，即通过关联法挖掘出图书借阅者所借阅书籍之间的关系，进行挖掘系统部署后，可建议图书管理员对书籍的摆放根据挖掘结果的规则进行一定程度的调整，进而方便借阅者的借阅和图书管理员的管理。 1.2 数据理解即了解目前的数据状况。1.需要的数据及含义：（1）读者信息（借阅证号，姓名，性别，类型，最长可保留天数），其中借阅证号是主键；（2）读者借阅信息（借阅证号，书名，作者，出版社，出版日期），其中借阅证号和书名两个都是主键，但读者借阅信息中的借阅证号是参照读者信息中的借阅证号而来。 2挖掘（或分析）数据准备读者信息（借阅证号，姓名，性别，类型，最长可保留天数），其中借阅证号是主键；设计如下：（2）读者借阅信息（借阅证号，书名，作者，出版社，出版日期），其中借阅证号和书名是主键，设计如下：（3）数据库关系图表示如下： (4)相关处理过程如下： 1）新建数据源；2）数据源视图分析结果如下： 3）新建挖掘结构；把读者信息设置为实例，读者借阅信息设置为嵌套；挖掘模型结构如下： 4）钻取结果如下： 4）在此设置最小支持度为50%,最小置信度为75%，界面如下： 5）建立关联规则模型如下： 3 数据挖掘（或分析）过程 3.1挖掘算法与挖掘软件选择 (1)挖掘算法：采用数据挖掘算法中的关联法来分析寻找数据间的关联性，在对候选集进行分析时采用Apriori算法找出频繁项集，进而由频繁项集产生关联规则。 (2)挖掘软件选择：Microsoft Visual Studio 2005和MS公司的SQL Server 2005 Data Mining软件。 3.2 数据预处理 (1)数据预处理是指在数据分析之前，我们通常需要先将数据标准化(Normalization)，利用标准化后的数据进行数据分析。数据预处理有助于为数据挖掘提供高质量的数据，良好的数据源是数据挖掘成功的重要保证，但现实的数据源中存在不完整的、异常的和不一致的数据，因此，数据的预处理是进行数据分析、成功实验的基础。例如：本次在对高校图书馆管理系统数据进行分析方案设计之前，我们组采用了头脑风暴法进行分析，然后各自选定和充分明确自己分析和研究问题的目的，然后采用数据清理、数据集成、数据转换和数据归约等技术有效改善数据挖掘的质量。 3.3挖掘过程说明数据挖掘过程由以下步骤组成：1.确定业务问题，即理解业务需求，清晰定义业务问题，从而避免迷失在大量数据中。在定义业务问题时，首先要考虑是否有充足的与业务有关的数据，识别数据挖掘分析的数据是否包含需要的模式；其次，需要考虑如何运用已发现的知识。思考如何把数据挖掘的结果应用到业务中有助于洞察业务存在的实际问题。例如：本次在对高校图书馆管理系统数据进行分析方案设计时，数据挖掘的最终目的是通过了解读者的借书模式，确定读者在图书馆进行借书时的规律，图书管理员针对这些规律合理摆放书籍，既方便读者借阅也方便图书管理员的管理；2.数据探测：即数据挖掘在确定业务问题后就要选择相关的数据，这些数据一般用简单文件、文本或数据库表的数据结构表示。分析什么数据？需要多少数据？如何进行各种数据的平衡？又需要什么转换才能进行有效的挖掘？为了解决这些问题就需要进行数据探测，进而整理出包含业务模式的数据。例如：本次在对高校图书馆管理系统