案例探讨优秀讲义.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
案例探讨优秀讲义

* / 森马官方旗舰店 / 李宁官方商城 * 内容 简介 原始数据源 资料前置处理 资料仓储设计 资料探勘结果 总结 * 简介 以图书借阅数据为例,说明数据探勘的处理过程: 数据取得、需求分析、资料整理、 资料仓储建立、资料探勘、结果分析。 探讨问题: 探讨不同科系是否借阅不同类别的书? 不同年级学生是否借阅不同类别的书? 大学部与研究生是否有不同的借阅习惯? 图书分类是否有改进的地方? 借阅纪录是否隐藏不易发掘而且重要的信息 ? 实例解说资料探勘过程,了解数据探勘的过程,建立具体的印象与观念,注重过程,而非结果。 * 内容 简介 原始数据源 资料前置处理 资料仓储设计 资料探勘结果 总结 * 原始数据源 根据需求分析,只考虑书籍、系所部门、读者、借阅数据 四个数据表 数据表名称 原始资料总笔数 字段个数 Book 364299 22 Department 323 9 Reader 37318 31 History (借阅历史资料) 1132648 3 * 内容 简介 原始数据源 资料前置处理 资料仓储设计 资料探勘结果 总结 * 第一阶段数据前置处理(1) 原始数据利用数据转换汇入SQL Server 将 Reader与 Department 数据表合成新的 Reader 数据表 。 在Reader 数据表内: 增加college字段,建立:系所?学院 概念阶层。 依学号分类,新增grade字段,记录用户年级,区分为「freshman、sophomore、junior、senior、postgraduate、candidate for PhD、teacher」等七个类别。 只保留 rno(读者id)、dept_code、dept_name、college_name、grade 字段,其余字段全部删除。 * 第一阶段数据前置处理(2) 在Book 数据表内的: 根据中西文图书分类,在索书号上新增sub_class及class属性,建立书籍种类的概念阶层 。 将language字段重新分类,保留最多的中文、英文、日文三类,将其余语言归类为other。 建立publsih_interval字段,出版年以五年为一区间,作为出版年代的概念阶层之用。 仅留下marc_id(书籍id)、title、author、publisher、publish_year、language、subject、marc_class、class、sub_class、publish_interval等字段。 * 第一阶段数据前置处理(3) 利用中西文图书分类检表,将书分为4大类,大类再细分成子项目。 * 第一阶段数据前置处理(4) 在History 数据表内: 将借阅日期拆成三个字段:借阅年、借阅月、借阅日,作为将来时间的概念阶层。 加入amount 字段,代表借书的本数,一般都为 1,作为事实数据表的量值。 仅留下marc_id、rno、borrow_year、borrow_month、borrow_date、amount字段,其中amount字段为量值。 * 第二阶段数据前置处理(1) 在 Reader 数据表,分析对象为正常学制学生,删除外校人士、行政人员、在职专班、转系、大五、大六、系所空白者、身分无法辨认者。 在 Book 数据表内,删除索书号不完全者;删除期刊数据及校内论文、不能外借之书籍(如当期杂志)、视听资料(如CD、LD、tape)等。 在 History 数据表内,删除索书号不完整之纪录;删除rno(user id)无法在整理过的Reader 数据表找到之纪录;删除索书号无法在整理过的Book 数据表找到之纪录。 * 第二阶段数据前置处理(2) 资料整理前后数据表内容变化比较 数据表 名称 原始资料总笔数 资料整理后的总笔数 原始字段个数 整理过后字段个数 Book 364299 75214 22 11 Reader 37318 8587 31 5 History 1132648 612075 3 6 * 内容 简介 原始数据源 资料前置处理 资料仓储设计 资料探勘结果 总结 * 数据仓储设计(1) 事实数据表:History 为事实数据表,amount 量值。 维度:Reader、Book与Time三个维度。 * 数据仓储设计(2) 在Reader 维度数据表内找到两种概念阶层: 年级:rno ? grade 学院系所:rno ? dept_name ? college_name 在Book 维度数据表内找到三种概念阶层: 语言:title ? language 主题分类:title ? sub_class ? class 出版年:publish_year ? publish_interval 在 Time 维度找到一种概念阶层

文档评论(0)

taotao0c + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档