基于PMML的电子商务数据挖掘研究.docVIP

下载本文档

3
0
约5.24千字
约 10页
2018-08-17 发布于湖北
举报
版权申诉

基于PMML的电子商务数据挖掘研究.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于PMML的电子商务数据挖掘研究　　〔摘要〕随着互联网技术的发展，电子商务进入了海量数据时代，从这些海量数据里挖掘出有用的模式具有非常高的商业价值。常规的数据挖掘模型会依赖于特定的数据挖掘平台，而目前的数据挖掘平台并不能做到随时随地跨平台交换数据挖掘模型。文章提出基于PMML的电子商务数据挖掘方法，只要数据挖掘平台兼容了PMML规范就可以真正做到跨台平交换数据挖掘模型。文章重点研究了PMML语言是如何表示完整数据挖掘模型，并就某电商平台挖掘潜在客户的数据进行实验并分析实验结果，从而验证了方案的有效性。　　〔关键词〕电子商务；数据挖掘模型；PMML；跨平台　　DOI：10.3969/j.issn.1008-0821.2015.08.012 　　〔中图分类号〕F71336〔文献标识码〕A〔文章编号〕1008-0821（2015）08-0057-04 　　电子商务是互联网技术迅速发展的必然产物，伴随着电子商务的快速发展，随之而来的是电子商务、网络日志、社交网络以及互联网搜索引擎等每天都在各类平台上产生大量的数据信息。IDC最新的数字宇宙研究结果表明，预计到2020年，世界上的数据存储总额将达到35ZB（1ZB等于1万亿GB字节）。信息爆炸带来的是无限的商机，目前无论是国内企业（例如淘宝），还是国外公司（例如Amazon、Ebay等）均已通过分析客户购买行为并利用分析结果提高了企业的服务质量，通过对客户购买行为的数据进行挖掘和分析可以帮助我们更好地理解客户的行为模式，进而对客户进行分类，从而制定更为精准的营销策略以及提高利润率和网络购物的渗透率。在这样的大环境下数据挖掘技术得到了迅速的发展。　　数据挖掘技术自20世纪90年代被提出以来一直在电子商务领域得到了重点研究，对于如何定义数据挖掘概念目前有很多版本，本文认为数据挖掘（又称KDD，即数据库知识发现）是针对数据的一种提取隐含在其中的信息的操作，目的是为了将数据库中大量的、不完全的、有噪声的、模糊的、随机的数据提取出来，使之变为可利用、有规律、能为决策提供支持的有价值的信息。目前国内外对数据挖掘的研究主要集中在数据挖掘领域的关键技术、关键算法研究，数据挖掘的实际应用以及有关数据挖掘理论方面研究，发掘方法与用户交互问题等。尽管数据挖掘技术在电子商务领域的应用由来已久，但它依然存在一些亟待解决的问题。主要表现在数据量巨大，数据变化速度快，数据挖掘模型中数据属性的选择十分关键；对数据变化的预测至今还没有非常成熟的技术；挖掘模型的可靠性与挖掘结果的准确性还没有统一的标准；在挖掘用户信息的前提下如何保护客户隐私的安全性也是一个亟待解决的问题[3]。本文主要针对海量电子商务数据的跨机构、跨平台数据挖掘进行研究。　　传统的小规模数据集的数据挖掘很容易在独立平台实现，然而电子商务数据面临海量、异构、多样、动态等问题，特别是当前互联网发展迅速，服务器会异地部署，数据分散导致处理过程非常复杂，在这种情况下，跨机构、跨平台进行数据挖掘交互十分频繁也十分必要。与此同时，传统的数据挖掘算法面临海量数据时需要进行改进，实际建模过程中可能出现重复执行同一个数据处理操作，在带有参数的情况下，手工执行会比较麻烦，必须借助脚本实现；在常规数据挖掘模型执行过程中，默认数据流是顺序执行，倘若存在改变执行顺序的需求，则需要使用脚本实现；传统的数据挖掘平台是用户首先在人机界面上调试好执行顺序，可以通过脚本语言来实现模型节点的自动执行、自动更新和导出执行结果；实际实施过程中可能面临批量修改现有的数据，为提高构建模型效率，需要采用脚本语言[4]实现。　　实际上，传统的数据挖掘平台都有各自的一套处理流程标准，要想实现同一数据挖掘模型的跨平台运行给数据挖掘研究带来了巨大的挑战。目前国内外关于数据挖掘在跨平台交换数据挖掘模型方面的研究还比较稀少，更没有形成统一的标准，即在一个平台上运行的数据挖掘模型还不能很轻易地迁移到另外一个平台。IBM公司的SPSS Modeler实现了用脚本语言定制一些数据挖掘过程的功能，但是定制的模型有限，而且模型仅仅适用与其系列数据挖掘工具。RapidMiner开发了适用其平台定制数据挖掘流程的脚本语言，但是这种脚本语言没有得到业界的认可[5]，不利于推广。VMStudio实现了用S语言来实现数据过滤与统计的功能，但是该平台没有开放源码，不利于二次开发。跨平台的重要性不言而喻，例如在一个平台进行的数据挖掘结果可以迁移到另外一个平台进行效果评估。所以本文提出基于跨平台的PMML语言来定制数据挖掘模型，实现数据挖掘模型的真正跨平台运行。　　11PMML概述　　1999年DMG（Data Mining Group）在XML的基础上制定出了预测模型标记语言PMML（Predict