案例探讨优秀讲义.pptVIP

下载本文档

1
0
约 25页
2017-02-10 发布于江苏
举报
版权申诉

案例探讨优秀讲义.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

案例探讨优秀讲义

* / 森马官方旗舰店/ 李宁官方商城 * 内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结 * 简介以图书借阅数据为例，说明数据探勘的处理过程: 数据取得、需求分析、资料整理、资料仓储建立、资料探勘、结果分析。探讨问题：探讨不同科系是否借阅不同类别的书？不同年级学生是否借阅不同类别的书？大学部与研究生是否有不同的借阅习惯？图书分类是否有改进的地方？借阅纪录是否隐藏不易发掘而且重要的信息？实例解说资料探勘过程，了解数据探勘的过程，建立具体的印象与观念，注重过程，而非结果。 * 内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结 * 原始数据源根据需求分析，只考虑书籍、系所部门、读者、借阅数据四个数据表数据表名称原始资料总笔数字段个数 Book 364299 22 Department 323 9 Reader 37318 31 History (借阅历史资料) 1132648 3 * 内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结 * 第一阶段数据前置处理(1) 原始数据利用数据转换汇入SQL Server 将 Reader与 Department 数据表合成新的 Reader 数据表。在Reader 数据表内：增加college字段，建立：系所?学院概念阶层。依学号分类，新增grade字段，记录用户年级，区分为「freshman、sophomore、junior、senior、postgraduate、candidate for PhD、teacher」等七个类别。只保留 rno(读者id)、dept_code、dept_name、college_name、grade 字段，其余字段全部删除。 * 第一阶段数据前置处理(2) 在Book 数据表内的：根据中西文图书分类，在索书号上新增sub_class及class属性，建立书籍种类的概念阶层。将language字段重新分类，保留最多的中文、英文、日文三类，将其余语言归类为other。建立publsih_interval字段，出版年以五年为一区间，作为出版年代的概念阶层之用。仅留下marc_id(书籍id)、title、author、publisher、publish_year、language、subject、marc_class、class、sub_class、publish_interval等字段。 * 第一阶段数据前置处理(3) 利用中西文图书分类检表，将书分为4大类，大类再细分成子项目。 * 第一阶段数据前置处理(4) 在History 数据表内：将借阅日期拆成三个字段：借阅年、借阅月、借阅日，作为将来时间的概念阶层。加入amount 字段，代表借书的本数，一般都为 1，作为事实数据表的量值。仅留下marc_id、rno、borrow_year、borrow_month、borrow_date、amount字段，其中amount字段为量值。 * 第二阶段数据前置处理(1) 在 Reader 数据表，分析对象为正常学制学生，删除外校人士、行政人员、在职专班、转系、大五、大六、系所空白者、身分无法辨认者。在 Book 数据表内，删除索书号不完全者；删除期刊数据及校内论文、不能外借之书籍（如当期杂志）、视听资料（如CD、LD、tape）等。在 History 数据表内，删除索书号不完整之纪录；删除rno(user id)无法在整理过的Reader 数据表找到之纪录；删除索书号无法在整理过的Book 数据表找到之纪录。 * 第二阶段数据前置处理(2) 资料整理前后数据表内容变化比较数据表名称原始资料总笔数资料整理后的总笔数原始字段个数整理过后字段个数 Book 364299 75214 22 11 Reader 37318 8587 31 5 History 1132648 612075 3 6 * 内容简介原始数据源资料前置处理资料仓储设计资料探勘结果总结 * 数据仓储设计(1) 事实数据表：History 为事实数据表，amount 量值。维度：Reader、Book与Time三个维度。 * 数据仓储设计(2) 在Reader 维度数据表内找到两种概念阶层：年级：rno ? grade 学院系所：rno ? dept_name ? college_name 在Book 维度数据表内找到三种概念阶层：语言：title ? language 主题分类：title ? sub_class ? class 出版年：publish_year ? publish_interval 在 Time 维度找到一种概念阶层