- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识挖掘在纺织行业信息化建设中作用
知识挖掘在纺织行业信息化建设中作用
信息化的推进使纺织行业积累了大量的数据,如果能够从凌乱的数据(如海关进出口数据,国家统计局生产数据、经济指标、固定资产投资数据,纺织企业直报数据及其他非结构化数据等)中挖掘有价值的知识,就意味着开始进入知识管理时代。
计算机技术的迅速发展使得处理数据成为可能,纺织行业也不再满足于简单的数据查询应用,而提出了深层次需求,即从数据中提取信息或者知识为企业或者行业决策服务。知识管理的各种功能及服务最终都还需依靠知识管理技术来实现,如搜索引擎服务就离不开搜索引擎技术,知识生产服务也需要数据挖掘和内容管理技术的支撑。可以说,没有强大的挖掘和管理技术支持,将很难有效地实施知识管理,很难做到产业预警和行业服务,它是构建知识管理系统的基础,也是实现知识管理的强大推动力。
1 数据挖掘的含义和作用
数据挖掘概念提出的历史虽然较短,但从20世纪90年代以来,其发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种表达方式,例如:
SAS研究所(1997年):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法。”
Bhavani(1999年):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程。”
Hand等(2000年):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程。”
笔者认为,数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的,能够支持决策,可以为企业或者行业带来利益,或发现行业存在的问题,从而为行业服务和预警等。
数据挖掘综合了多个学科的技术,针对纺织行业的主要功能如下。
(1)分类:按照某一来源数据分析其属性、特征,建立多级编码来区不同类别的数据。例如,中国海关的进出口数据商品代码10位、国别代码3位、贸易方式2位、经营单位10位、单位2位、数量12位、金额12位、累计数量12位、累计金额12位、去年累计数量12位、去年累计金额12位、15个汉字企业名称。其中,商品代码10位中的前6位,完全遵循国际交换编码规则。
(2)聚类:识别出和分析出不同数据间的内在联系,按照这些规则把对象分成若干类。
(3)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如,通过每月采购家纺四件套的客户数据分析,挖掘出采购枕芯等其他产品的比重,从容地帮助企业应对突入起来的市场变化。
(4)预测:把握分析对象发展的规律,对未来趋势做出预见。例如,通过建立行业运行模型、验证预测效果,能够及时、准确、有效地为行业和企业提供行业统计数据,并通过对数据的分析迅速得出我国纺织业的经济运行趋势。这就需要建立一个完整的,而且能够使各个环节实现无缝连接的运行机制。
(5)偏差的检测:对分析对象中少数、极端特例的描述,揭示内在原因。例如,在行业的每一个月或者一段时间的交易中有哪些纺织品交易出现波动,做出预警,从而分析出问题的内在因素,降低风险。
2 数据挖掘与知识发现
知识发现的目的是从数据中发现知识,而数据挖掘则是知识发现中的一个特定步骤,都是从数据中发现知识。但是,知识发现是更广义的一个概念,而数据挖掘则是更具体、更深入的概念,其关系体现在知识发现的过程中。
2.1数据挖掘和知识发现的步骤
(1)问题理解和提出:在开始数据挖掘和知识发现之前最基础的工作就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。
(2)数据准备:获取原始数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是如果行业原有数据仓库满足数据挖掘的要求,就可以将此数据仓库作为数据挖掘库。
(3)数据整理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘有关的变量,或者转变变量。
(4)模型分析:根据数据挖掘的目标和数据的特征,选择合适的模型。
(5)预测检验:对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合对结果进行解释。
具体步骤如图1所示,
2.2数据挖掘条件机制和方法
知识发现所处理的对象数据如果是原始数据,则不适合在这些数据上进行知识挖掘,需要对其进行相应处理,如数据的选择、净化(消除噪音、冗余数据)等,使其生成过程数据,之后进行转换,包括离散值数据与连续值数据之间的相互转换、数据值得分组分类、数据项之间的计算组合等,为后面的数据挖掘准备好正确的数据。现以国家统计局提供的纺织产品(国家统计局对外发布)在2009年前后的两套编码系统为例,来说明上述整理及分析过程。
文档评论(0)