- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘及应用概述 内容 数据挖掘概念与应用 背景、概念、过程、应用 主流数据挖掘方法论简介 Semma、crisp-dm等等 常见数据挖掘算法简介 关联规则、决策树、神经网络等等 数据挖掘在电信上的应用 客户细分、流失预测等等 数据爆炸与客户需求 数据以惊人速度生成 如电信详单、银行交易记录、科学试验数据等 用户期望更加深入的信息 如 哪些用户是将要流失的用户? 如何从大量数据中找到隐含的信息? 数据挖掘 一些典型问题 找出欺诈行为的存在,给出欺诈行为特征 违规操作的存在,违规操作的特征。 对行动,事件进行监控,分析,给出预报,预警 犯罪行为的特点 各种案件的特征,特点 信用的评估(信贷,信用卡A等级) 各种案例库的建立与查找(医疗,法律案例) 恐怖活动的预警 经济活动间关系分析与预警 经济发展规律的特点(宏观经济与微观经济份分析) 商业交易行为的分析 商品的促销,库存的减少 选举的预测 比赛的分析与预测 电视节目的编排 一些典型问题 销售一个产品 广告 材料 邮寄给谁 信贷中信用评估,信用卡评级,信用卡欺诈发现 保留客户, 争取客户,交叉销售 违规操作,欺诈行为发现 货架货物的摆放 国民经济各指标间的关系 反洗钱的问题(大额,可疑外汇交易…) 疾病, 症状, 药物, 疗效之间的关系 DNA序列的相似分析,导致各种疾病的特定基因序列模式 偷税、漏税、逃税的发现 技术发展趋势 竞争对手的策略 市场的竞争策略,销售的策略 热点话题挖掘,各种观点的归纳 大到恐怖活动的迹象……等 数据挖掘是从海量的数据中发现未知 并且有价值的规则和模式的过程。 数据→信息→决策 功能:预测、分类、关联、聚类等 数据挖掘简要发展过程 80年代,各种学习算法/数据建模方法相继提出 1989:KDD(Knowledge Discovery in Data (Database))”数据库知识发现”概念正式提出 1995:第一届正式国际学术会议召开 1995:第一本关于知识发现和数据挖掘的书出版 1997:全球约6-8数据挖掘专著,国外应用开始发展 当前:数据挖掘专著已达数百种;各大学均开设相关课程,国内应用开始启动 知识发现(KDD)还是数据挖掘? 两者最初由不同社区提出 知识发现由人工智能界提出 数据挖掘由统计学界提出 目前两者概念统一为: 知识发现:数据中寻找有用信息和模式的过程 数据挖掘:在KDD过程中使用算法提取信息和模式 即前者强调过程,后者强调算法,一般情况可混用 数据挖掘-多学科的融合 数据挖掘与其他学科的关系 数据挖掘vs数据库查询 数据库查询问题 问题定义良好,可用SQL描述,返回精确数据 找出姓“胡”的所有信用卡申请客户 找出上个月购买金额超过10000元的客户 找出购买了牛奶的所有客户 数据挖掘问题 问题定义不明确,无精确描述语言,返回近似结果 找出具有信用风险的所有信用卡申请客户 找出具有相似购买行为的客户 找出所有经常和牛奶一起购买的物品 数据挖掘vs统计学 算法不一样 统计学算法比如多元线性回归、时间序列、因子分析、主成分分析等等 数据挖掘算法比如决策数、神经元、RBF、关联算法、演示图算法 很多算法即为统计学算法,也为数据挖掘算法 数据量大小不同 统计学的数据集相对较小,超过30则称为大样本数据,而数据挖掘偏重于海量数据 数据挖掘功能 预测型 分类 回归 预测 时间序列分析 描述型 划分 摘要 依赖发现 数据挖掘功能与算法 分类:把数据映射到预先定义好的目标类别中 如把一篇文章划分到“编程”类或“医疗”类 可用技术:决策树、BP网络、支持向量机、贝叶斯方法、K近邻、规则归纳方法等等 回归:把数据映射到连续值的目标中 如求明年GDP的预测值 可用技术:回归、支持向量机等 数据挖掘功能与算法 划分:把没有预先定义类别的数据划分成几个合理的类别 如客户细分 可用技术:k均值、kohenon等 摘要:形成数据的高度浓缩子集及其描述 如文档自动摘要 可用技术:统计方法等 依赖分析:发现数据项之间的关系 如使用彩铃次数和交往圈大小之间的关系 可用技术:关联规则、因子分析、序列发现 数据挖掘工具调查 行业应用-国外调查 国内数据挖掘应用 金融业(银行信贷、信用评估、信用卡等级,保险,证卷分析、监管、预警, 外汇管理……) 电信(各移动通信公司几乎都在启动) 商场(客户分析,货物摆放,交叉销售…) 地税(异常发现,漏税…) 生产部门(石油,钢铁,…) 医疗(医疗,药物…) 客户关系管理(CRM) 网站及电子商务 网络安全 科学(天体,气象) 目前主流的数据挖掘方法论 IBM公司提出的方法论 SAS公司提出的方法论 SPSS公司提
您可能关注的文档
- 人教版小学数学四年级上册《沏茶问题》教学设计教案.doc
- 人教版辛亥革命说课稿.docx
- 人教版语文九年级下词语汇总.doc
- 人教小学三年级上册数学公式.doc
- 人类对物质结构认识的发展简史.doc
- 人力资源规划的目的.doc
- 人力资源年度工作计划表.doc
- 人民群众来信来访登记簿.doc
- 人民武装部一季度工作总结.doc
- 人权背景下我国劳动者职业安全的立法保护.doc
- 2025年电动托盘堆垛车行业分析报告及未来五到十年行业发展趋势报告.docx
- 2025年EGR冷却器行业分析报告及未来五到十年行业发展趋势报告.docx
- 2025年财富管理产业园区行业分析报告及未来五到十年行业发展趋势报告.docx
- 2025年步进系统行业分析报告及未来五到十年行业发展趋势报告.docx
- 2025年光学保护膜行业分析报告及未来五到十年行业发展趋势报告.docx
- 2025年电动拖把行业分析报告及未来五到十年行业发展趋势报告.docx
- 2025年EMI滤波器行业分析报告及未来五到十年行业发展趋势报告.docx
- 2025年空调节能控制器行业分析报告及未来五到十年行业发展趋势报告.docx
- 2025年膜清洗专用药剂行业分析报告及未来五到十年行业发展趋势报告.docx
- 2025年汽车仪表台组件行业分析报告及未来五到十年行业发展趋势报告.docx
最近下载
- CD33漫反射型操作说明书中文版.pdf
- 电力牵引传动与控制.ppt
- 人教版-物理-八年级下册-71《力》习题及答案.pdf VIP
- 初中物理八年级下册力学经典习题(附解析).pdf VIP
- 2024年土地抵押借款合同范本6篇.docx
- 政治-江苏省苏州市2024-2025学年2025届高三第一学期学业期末质量阳光指标调研卷试题和答案.docx
- 国际机器人联合会(IFR):2024世界机器人报告(中文版).pdf
- 2024届高三九省联考地理:新疆联考2024届高三新高考适应性测试地理试卷(含解析).pdf VIP
- Siemens 西门子家电 洗碗机 SJ656X26JC 使用说明书_2.pdf
- 2024离婚起诉书离婚起诉状【范本】.pdf
文档评论(0)