网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘中数据预处理在图书借阅中的应用.pdf

数据挖掘中数据预处理在图书借阅中的应用.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘中数据预处理在图书借阅中的应用.pdf

第10卷第3期 淮北职业技术学院学报 V01.10No.3 201 OFHUAIBEIPROFESSIONALANDTECHNICALCOLLEGE Jun.2011 1年6月 JOURNAL ·计算机研究· 数据挖掘中数据预处理在图书借阅中的应用 况莉莉 (淮北职业技术学院计算机科学技术系,安徽淮北235000) 摘要:数据预处理是数据挖掘过程中前期的数据准备阶段,预处理后的数据质量直接影响到后期的挖掘结果和效 率。通过对高校图书馆读者借阅数据的预处理,研究分析了几种常用的预处理技术,为进一步的图书借阈数据挖 掘奠定了基础。 关键词:数据挖掘;数据预处理;图书借阅 中图分类号:TP311 文献标识码:A 文章编号:1671-8275(2011)03一0117—03 O 引言 (4)人机结合法。利用人与计算机相结合的方法,比如 数据挖掘(Data 人工设置阈值。帮助计算机识别孤立点。 Mining)就是从大量的、随机的、模糊 的数据中发现潜在的、有用的信息和知识的过程。现实世 1.1.2遗漏值的处理 界的数据库中数据量很大,常达数千兆,这就不可避免地 数据库某些属性值可能存在遗漏,对含有遗漏值比例 包含数据冗余、数据分散、数据不一致等问题。在这样的 较小的数据库,可以直接删除这些记录。然而当遗漏值较 数据中进行挖掘必然会影响挖掘的效率。高质量的决策 多时,如果采用直接删除法将大大减少数据量,从而导致 依赖于高质量的数据Ⅱ],因此,数据预处理是数据挖掘前 错误的挖掘结果。因此,遗漏值处理是数据清理中一项重 最重要的、必不可少的一个步骤。预处理后的数据质量能 要工作。 够得到很大提高,从而有助于提高其后的数据挖掘的精度 针对遗漏值的处理通常采用以下方法: 和性能。本文将对数据预处理技术在高校图书馆图书借 (1)删除。若一条记录中有多个属性值被遗漏时,可以 阅数据中的应用进行研究。 采用此方法。但当每个属性遗漏值的记录比例都很高时。 1数据预处理 这种方法是不可行的。 数据预处理简单的讲就是消除“脏”的数据(即包含噪 (2)填充。对于记录中各种属性值遗漏情况,可采用不 音、不完整、不一致的数据),从而得到数据挖掘所需的干 同的方法。常用的填充方法有:人工填充、默认值填充、平 净的、简洁的、准确的数据。它主要包括数据清理、数据集 均值填充、同类别均值填充和最可能的值填充。 成、数据转换和数据归约等几个部分。这几种数据预处理 1.2数据集成 数据集成(data 方法不是相互独立的,而是相互关联的,如对数据冗余的 integration)是指将来自多个数据源 处理中既有数据清理又有数据归约。 (如数据仓库、数据方或文件)的数据合并到一起形成一个 1.1数据清理 完整的数据集合(如数据仓库)。数据集成不是简单的数 据合并,而是将异构数据进行统一规范化的处理过程。3]。 数据清理(datacleaning)是指消除数据中所存在的噪 声、填充遗漏值、识别孤立点以及纠正数据不一致等操作。 在数据集成时,通常需要考虑三个问题: 1.1.1 噪音数据的处理 (1)“模式集成”问题_1],是指如何使来自多个数据源的 噪声是指数据中存在的

文档评论(0)

aiwendang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档