企业信息化如何发挥数据挖掘的效力.docVIP

下载本文档

1
0
约3.76千字
约 5页
2017-07-26 发布于广东
举报
版权申诉

企业信息化如何发挥数据挖掘的效力.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

企业信息化如何发挥数据挖掘的效力.doc

　　企业信息化如何发挥数据挖掘的效力|第1 我国的银行、证券、电信、保险行业都在大谈“数据集中”，希望在此基础上实现客户关系管理和商业智能。“数据挖掘工程师”这个新颖的职位名称，也隐约出现在企业的招聘职位栏里。数据挖掘到底有没有用？一些企业的领导人对此怀有疑虑。数据挖掘人员口里念叨的是一些稀奇古怪的技术名词，他们的出身复杂，即不完全是学计算机的，也不像统计学家，更不是营销策划人员，他们得到的结果不容易理解，他们的工作对我的企业发展到底意味着什么？一些技术出身的管理者可能会热捧数据挖掘，希望从中尽快找出新的商业模式，找到新的赚钱机会；而商业直觉强烈的管理者则容易抵触这种精确的定量分析方法，数据挖掘本身的缺陷也导致它容易遭受攻击。为了更好地发挥数据挖掘的效力，需要的是企业管理者的理解、数据挖掘人员的更多努力。本文根据过去数据挖掘项目的经验，试图对一些混淆不清的问题做出解释。 1、结果的应用问题：数据挖掘的结果有一部分是以概率数据的形式提交的，这是最容易招致非议的地方。企业管理者可能会问，我要你对我的客户流失做出预测，为什么你不能准确地告诉我究竟是哪些客户下个月会流失？而只能告诉我每个客户流失的概率。我要你预测哪些客户会发生保险欺诈，你提交的仍然是客户骗保的概率。这样的概率值我如何使用，我敢用吗？解释：数据挖掘建立的预测模型，是对真实世界的近似，原因是企业客户数据库中储存的客户的行为信息是不可能面面俱到的，可能没有搜集储存到的那些客户信息恰恰是与客户是否流失或骗保最相关的信息，因此依据已有的信息建立的预测模型是不精确的，得不出确定性结果，而只能是概率值。这样的结果仍然是有用的，因为预测出来的那些流失概率高的客户中，实际流失的往往特别多，企业重点对这部分客户实施挽留维系，针对性就特别强，能节省企业的资源开销。同样，欺诈概率较高的客户中，实际发生欺诈行为的比率也比别的客户群体中高出很多，因此专门的调查人员可以重点对这些客户进行调查，往往事半功倍。资源的节省，即意味着效益的增长。 2.、变量的选择问题：建立预测模型是一个很吸引人的想法。预测的目标比较好确定，你要预测客户流失，那么“客户是否流失”（二值变量）就是目标变量；你要预测股票的涨跌，那么“收市价是否上升”就是目标变量。但是如何确定哪些变量作为自变量（回想一下高中代数中关于函数的定义），则颇费周折。换句话说，要确定哪些因素与目标变量有关系，往往是见仁见智。这个问题解决不好，则会直接影响预测模型的性能。那么，究竟应该是企业业务人员来决定，还是数据挖掘人员决定呢？解释：最佳的方式是双方的结合。企业业务人员长期的业务经验，使他们能够敏锐地感觉到哪些因素与目标变量密切相关。但是经验是有局限的，甚至束缚人的思维，企业业务人员会遗漏很多表面无关但实际上很重要的因素，而且因为人脑的处理能力有限，有时不得不忽略一些因素及一些因素之间的复杂微妙的相互影响，而这正是数据挖掘人员可以发挥作用的地方。统计学中有大量的成熟的方法，可以帮助我们挑选合适的变量来构造我们的预测模型。还有一种常见的现象：数据挖掘人员挑选的某个变量，事后发现对模型精度的提高很有好处，但是可能得不到合理的业务解释，这时候，企业业务人员会要求删除这个变量。实际上，数据挖掘的结果常常超出我们的想象，我们的本能就是趋向于拒绝无法理解的东西，甚至冒着损害模型预测性能的风险--这种做法是有害的，因为当前无法解释并不意味着以后也无法解释（据说沃尔玛的“啤酒与尿布”的规则发现也是事后辅之以市场调研才得到解释的）；数据挖掘结果并不是凭空得来，而是借助于上千年来人类发展的数学理论在无数次证实有效的复杂算法基础上得到的，不能简单地予以否定；更何况，如果这个变量进入预测模型，被证明是有利于模型精度的，则去掉是很可惜的。不要忘记“实践是检验真理的唯一标准”这一基本法则。 3、对“提升度（lift）”的迷信问题：在对预测模型的性能评估有所了解后，企业业务人员可能经常会问数据挖掘工程师：“你的模型的提升度是多少？”似乎低于3.0就是一个坏模型。那么究竟要达到多少才能够接受呢？解释：提升度是衡量预测模型的一个重要指标，但不是唯一的。我们还有混合矩阵、响应捕获率、ROC曲线、基于门限的诊断图等等。不同行业的模型提升度是不同的，同一行业的不同地区也可能不同。我们曾经试验过，用大致相同的自变量因素预测用户流失，在广东某地的模型的提升度只有2.2，而该模型在另一个时段应用时的提升度高达5.2，而在湖北某地能达到7.0。因此，模型的接受程度不能仅以提升度为标准，而应该以其预测结果能创造的效益来衡量，计算其投资回报率。但是，数据挖掘人员应该主动想办法，尝试不同的增强办法，在不导致模型发生