- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘在工会系统中应用
数据挖掘在工会系统中应用
[摘 要]随着现代信息技术的发展,计算机已经在越来越多的领域发挥着越来越重要的作用,尤其是数据挖掘技术在各种领域的应用越来越广泛,可以帮助提取客户的行为信息,进行用户行为分析和深度挖掘,目前工会面临着的问题越来越复杂和多变,我们需要根据工会系统中的劳模数据信息进行数据的深入分析,发掘劳模的相关信息和未来发展动向,为工会的决策的预测信息提供帮助。
[关键词]数据挖掘;工会;预测
中图分类号:U213 文献标识码:A 文章编号:1009-914X(2018)20-0208-01
0.前言
目前工会是由工人自发组织建立的一个工人阶级群众组织,是党组织和工人联系的桥梁和枢纽,是会员和职工利益的代表,所以工会信息在目前的社会具有很重要的研究意义。随着互联网时代的到来,工会也逐步开始采用工会信息系统来记录工会的内部信息,方便了工会各个项目的数据管理,提高了工作效率。工会系统的信息随着工人阶级的增加变得越来越多,而工会也在面临各种各样的问题,所以我们要对众多的工会数据进行详细分析和深度挖掘,探索到隐藏在数据背后的相关联系和事实。数据挖掘的结果不仅可以完善工会目前的问题,同时还可以帮助工作的领导者进行工会的决策。
1.工会系统建设的可行性
工会系统的主要是为了帮助广大的工人阶级而建立的信息系统,它主要用来对于工会中工人们的数据信息进行存储,提高了工会的办公效率并且保证了信息的准确性。工会的各个部门之间在业务处理过程中都积累了大量的业务数据,对于这些业务数据进行深度挖掘可以提取相关的业务逻辑,可以帮助领导者进行政策的抉择。目前的数据挖掘技术已经被广泛应用于各行各业中,尤其是以银行类的金融行业用的最为广泛,例如数据挖掘可以通过用户的消费情况进行行为分析来判断该用户是否具有偿还贷款的能力。基于以上的描述,工会系统的建设是非常可行的。
2.数据挖掘在工会系统应用的必要性
数据挖掘技术的不断成熟标志着互联网新时代的到来,各行各业都在逐渐将数据挖掘技术应用到自己的领域。信息系统主要用来存储用户的各类业务信息,同时提高相关领域的工作效率。如果我们仅仅将这些数据作为数据集来进行统计,这些数据将会失去很多的业务价值。所以我们将数据挖掘技术应用于信息系统中可以发现业务数据关系背后的价值,根据大规模的数据进行深度分析可以进行未来的预测,调整当前的工会的政策,使得工会更好地服务于广大劳动者。
3.K-means聚类算法介绍
目前数据挖掘算法主要包括聚类算法,分类算法,关联规则分析等,对于数据进行深度挖掘,提取有用的价值信息,根据目前应用最广泛的算法还是K-means聚类算法同时也是无监督学习的机器学习算法。
3.1元素相异度计算方法
K-means是一种聚类分析的经典算法,聚类就是将整个数据对象在不知道预期目的的情况下进行数据的划分的方法,划分后的各个聚类簇之间差异很大,同类簇之间相似度较高。一个数据对象只能被一个簇所拥有。它主要是通过对两个元素之间的差异度进行比较进行归纳信息。元素相异度的计算方法有很多种,主要包括欧几里得距离,它的定义为d(x,y)=sqrt((x1-y1)2+(x2-y2)2+…+(xn-yn)2),主要表示两个元素在欧式空间中的集合距离,因为欧式距离计算直观并且容易理解,所以在整个算法过程中该距离计算公式被广泛应用。第二种相异度计算方法为曼哈顿距离,它定义为d(x,y)=|x1-y1|+|x2-y2|+…+|xn-yn|,这两种距离的计算方式都是在实际应用比较广泛的。其余的二元变量类型,分类变量类型及序数变量类型应用也很多,由于在本项目中基本没有采用,所以不再做一一赘述。
3.2聚类问题介绍
聚类问题简单来说就是给定一个元素集合,其中每个元素具有n个可观察属性,使用特定的算法将这个元素集合划分成K个子集,使得每个子集内部元素之间的相异度尽可能低,不同子集之间元素的相异度尽可能高,每一个子集叫做一个簇。
K-means算法是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想主要是通过迭代过程把数据集划分为不同的类别,使得聚类性能的准则函数达到最优,这样生成的每个类别内聚性高,而类与类之间则耦合性低,不太适合处理离散型的数据集,对于连续性的数据集具有较好的聚类结果。
算法的输入为簇的数目K和包含n个对象的数据集。 算法的步骤首先为每一个簇都要设定一初始的聚类中心,然后将数据集的样本按照元素差异度计算方法分配到临近的簇,每一个簇的聚类中心被当前的簇中的元素平均值代替,最后重复以上步骤到聚类中心不在变化。最后得到K个聚类簇。
4.数据挖掘在工会系统中的应用过程
本文的数据挖掘算法主要是K-m
文档评论(0)