数据挖掘中数据预处理在图书借阅中的应用.pdf

下载文档

15
0
约 4页
2015-09-05 发布于重庆
举报
版权申诉
保障服务

数据挖掘中数据预处理在图书借阅中的应用.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第10卷第3期淮北职业技术学院学报 V01．10No．3 201 OFHUAIBEIPROFESSIONALANDTECHNICALCOLLEGE Jun．2011 1年6月 JOURNAL ·计算机研究· 数据挖掘中数据预处理在图书借阅中的应用况莉莉 (淮北职业技术学院计算机科学技术系，安徽淮北235000) 摘要：数据预处理是数据挖掘过程中前期的数据准备阶段，预处理后的数据质量直接影响到后期的挖掘结果和效率。通过对高校图书馆读者借阅数据的预处理，研究分析了几种常用的预处理技术，为进一步的图书借阈数据挖掘奠定了基础。关键词：数据挖掘；数据预处理；图书借阅中图分类号：TP311 文献标识码：A 文章编号：1671-8275(2011)03一0117—03 O 引言 (4)人机结合法。利用人与计算机相结合的方法，比如数据挖掘(Data 人工设置阈值。帮助计算机识别孤立点。 Mining)就是从大量的、随机的、模糊的数据中发现潜在的、有用的信息和知识的过程。现实世 1．1．2遗漏值的处理界的数据库中数据量很大，常达数千兆，这就不可避免地数据库某些属性值可能存在遗漏，对含有遗漏值比例包含数据冗余、数据分散、数据不一致等问题。在这样的较小的数据库，可以直接删除这些记录。然而当遗漏值较数据中进行挖掘必然会影响挖掘的效率。高质量的决策多时，如果采用直接删除法将大大减少数据量，从而导致依赖于高质量的数据Ⅱ]，因此，数据预处理是数据挖掘前错误的挖掘结果。因此，遗漏值处理是数据清理中一项重最重要的、必不可少的一个步骤。预处理后的数据质量能要工作。够得到很大提高，从而有助于提高其后的数据挖掘的精度针对遗漏值的处理通常采用以下方法：和性能。本文将对数据预处理技术在高校图书馆图书借 (1)删除。若一条记录中有多个属性值被遗漏时，可以阅数据中的应用进行研究。采用此方法。但当每个属性遗漏值的记录比例都很高时。 1数据预处理这种方法是不可行的。数据预处理简单的讲就是消除“脏”的数据(即包含噪 (2)填充。对于记录中各种属性值遗漏情况，可采用不音、不完整、不一致的数据)，从而得到数据挖掘所需的干同的方法。常用的填充方法有：人工填充、默认值填充、平净的、简洁的、准确的数据。它主要包括数据清理、数据集均值填充、同类别均值填充和最可能的值填充。成、数据转换和数据归约等几个部分。这几种数据预处理 1．2数据集成数据集成(data 方法不是相互独立的，而是相互关联的，如对数据冗余的 integration)是指将来自多个数据源处理中既有数据清理又有数据归约。 (如数据仓库、数据方或文件)的数据合并到一起形成一个 1．1数据清理完整的数据集合(如数据仓库)。数据集成不是简单的数据合并，而是将异构数据进行统一规范化的处理过程。3]。数据清理(datacleaning)是指消除数据中所存在的噪声、填充遗漏值、识别孤立点以及纠正数据不一致等操作。在数据集成时，通常需要考虑三个问题： 1．1．1 噪音数据的处理 (1)“模式集成”问题_1]，是指如何使来自多个数据源的噪声是指数据中存在的