数据挖掘的三大趋势.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘的三大趋势

数据挖掘未来的三大趋势 ? ?? ??? 趋势一:大数据,大分析 ? ?? ???近两年关于数据挖掘出现了“大数据”这个概念,一些电子商务网站的数据量增长尤其明显。大数据会影响数据挖掘的工具以及方法。针对这种情况,SAS提出“大分析”的概念。光有大数据,没有一套匹配的技术来配合也不行。SAS基于大分析的趋势提出高性能计算的解决策略。 ? ?? ???高性能计算,主要针对大数据量提高分析挖掘的速度。主要有三种实现方式,库内计算,内存计算以及网格计算。库内分析:大数据一般存储在企业的数据仓库内,以前用数据挖掘工具,需要将数据从数据仓库拿出来,在外面做完分析再放回去。但是随着数据量的增大,搬数据的代价非常高,因此库内分析就是指在数据仓库的内部放入建模的功能,直接在数据库内进行分析。我们目前和许多数据仓库厂商都有合作。第二种方式是内存计算。即使采用库内计算,还存在数据读取处理的问题。在数据仓库里面需要大量的磁盘读写工作。建模结束回看过程,会发现大概有80%的时间在读数据,而20%CPU在做计算。通过加内存条的方式,比如500T的数据,插入800T的内存,就可以将数据放在内存里,这样每次读写数据都可以直接在内存里进行,保证每次运算速度都非常快,避免磁盘读写。第三种方式是网格计算。一台服务器,性能再高,都有一个限度,不能无限加内存。通过多台服务器,形成一个服务器网路,实现分布式计算。每一台服务器成为一个节点,节点之间通过管理软件联系起来。一旦建立模型之后,再把模型分解,不同服务器负责不同的部分,各自计算,算完再结合起来。这样就保证了速度。 ? ?? ??? 趋势二:非结构化数据的海洋 ? ?? ???非结构化数据的数据量增加越来越快,我认为它与结构化数据就像海洋和陆地的比例。以前我们只看陆地上的数据,但是实际上海洋里面很多资源没有被有效利用。在非结构化数据发展中,要点是如何从非结构化向结构化转变,做结构化处理。这里面涉及了文本挖掘、自然语言处理等更细化的技术实现手段。此外,非结构化数据与结构化数据结合也将是一个发展热点,单纯依靠其一都不可靠。 ? ?? ???针对自然语言文本的非结构化的信息,最典型的做法是抓取关键词。但是文本挖掘技术的不断成熟,产生了计算语言学,即让语言可以计算,可以进行量化处理,通过大量语料库辅助研究人员对非结构化数据进行分析。 ? ?? ???事实上,SAS目前处理非结构化数据还是将文字先转化为与数据库类似的结构化数据,然后再按照结构化数据的方式进行处理。但是转化的这步比较难。但是这些不会阻碍大家对于非结构化数据的挖掘,毕竟它的数据量非常庞大,舍弃不用实在是非常浪费。虽然目前这种技术还不算非常成熟,达不到结构化数据的程度,但是已经可以在商用系统里应用了。 ? ?? ???在未来,结构化数据仍然是主流,这毋庸置疑。毕竟它的数据是相对最准确的,底层的数据质量有保证。但是全球数据是以几何级数增长,其中75%为非结构化数据,因此未来将以结构化数据挖掘为核心,非结构化数据会变得越来越重要。二者是相辅相成的关系,不会只通过某一个方面的分析就得出结论做决策。 ? ?? ???例如,汽车的4S店维修店会把车主经常容易损坏的零件放在库存备用,以前企业会定期定量补充配件,但是有时候会出现某段时间某一种配件突然需求很多,而其他一些需求下降的情况。长期没用的零件会挤占库存空间。而如果备的零件不够客户又会不满意,认为企业服务质量不高。到底要备多少库存量就会用到数据挖掘的需求预报应用。这是结构化数据的应用。另一方面,客户也会通过电话来做咨询或者投诉,车厂的呼叫中心会将事故现场信息,索赔等以文字形式录入系统中,通过针对这些文字的非结构化分析,我们也可以发现车辆经常出哪些事故,哪些零件易损等。这些信息时无法通过结构化数据分析的,因为它都存在于文字描述中。这时候就需要利用非结构化和结构化数据挖掘共同发挥作用。 ? ?? ??? 趋势三:社会化分析 ? ?? ???社会化分析主要涉及社会媒体分析和社会网络分析。社会媒体分析比较典型的如博客微博,网民会在这种平台上发表各种各样的观点,我们要分析大家对产品服务的态度等。社会网络分析是目前非常火的话题。特别是微博的出现,引发了一个爆发式的分析热潮。在微博上,熟人和陌生人都可以彼此互相关注,信息被评论、转发又会不断扩展、发散,逐渐放大。企业会关注人们在微博上的动向,政府也会关心言论的走向。对于普通用户,也会涉及到自己交往圈、关系圈。在圈子里面哪些人是影响者,哪些是跟随者,哪些是边缘人,找到这些关键点,对营销会有很大帮助。 下面是古文鉴赏,不需要的朋友可以下载后编辑删除!!谢谢!! 九歌·湘君?屈原??朗诵:路英 君不行兮夷犹,蹇谁留兮中洲。? 美要眇兮宜修,沛吾乘兮桂舟。? 令沅湘兮无波,使江水兮安流。?

文档评论(0)

xvli2 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档