- 1、本文档共80页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第7讲知识发现与数据挖掘
合肥工业大学人工智能与数据挖掘研究室 高级人工智能 知识发现与数据挖掘 王浩 知识发现的发展和定义 知识发现的发展和定义 知识发现的发展和定义 知识发现的发展和定义 知识发现的发展和定义 知识发现的发展和定义 知识发现的发展和定义 知识发现的处理过程 知识发现的处理过程 知识发现的处理过程 知识发现的处理过程 数据挖掘概述 数据挖掘概述 数据挖掘概述 数据挖掘概述 数据挖掘概述 数据挖掘概述 数据挖掘概述 数据挖掘概述 知识发现(数据挖掘)的方法 知识发现(数据挖掘)的方法 知识发现(数据挖掘)的方法 知识发现(数据挖掘)的方法 知识发现(数据挖掘)的方法 知识发现(数据挖掘)的方法 知识发现(数据挖掘)的方法 知识发现(数据挖掘)的方法 知识发现(数据挖掘)的方法 数据挖掘的应用 数据挖掘的应用 数据挖掘的应用 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 数据挖掘技术 Web数据挖掘 Web数据挖掘 Web数据挖掘 Web数据挖掘 Web数据挖掘 Web数据挖掘 Web数据挖掘 Web数据挖掘 Web数据挖掘 大数据与数据挖掘 大数据与数据挖掘 大数据与数据挖掘 3. Web数据挖掘分类 (3)对页面中的文本进行特征描述,特征描述的模型有很多种,向量空间模型(VSM),布尔逻辑模型,概率模型等等。继而对特征向量进行挖掘,对页面中的多媒体信息进行多媒体信息挖掘,具体方法有页面内容摘要、分类、聚类以及关联规则发现等。 3. Web数据挖掘分类 Web结构挖掘 从web结构中发现潜在链接模式的过程。由于文档之间存在着超链接,WWW可以通过这种超链接揭示出文档内容之外的一些有价值的信息。例如指向一个页面的超链接数目就表明了该文档受欢迎的程度,而其包含的超链接数目就表明该文档主题的丰富程度。 结构挖掘的功能是通过分析一个Web页面链接和被链接数量以及链接对象的重要性来建立Web的链接结构模式,并为户提供与请求相关度较大的Web页面,提高搜索引擎的精度和查全率。主要有PageRank和Hub/Authority两种算法。 3. Web数据挖掘分类 Web使用挖掘 通过对用户在访问WWW服务器时留下的访问记录进行挖掘,从而获得有关用户的访问模式。服务器日志包括访问日志、引用日志和代理日志。 访问日志记录了用户的标识、访问时间、方法、请求的页面、协议、服务器状态及传输字节数等; 引用日志记录的是被请求页面的存放位置; 代理日志记录了用户使用的浏览器和操作系统的类型。根据三者的内在关系,可以将它们拼接成完整的日志纪录并以关系表形式保存在数据库中。 3. Web数据挖掘分类 这些信息中隐含着用户对特定内容的需要。Web使用记录挖掘是通过处理服务器日志文件,以发现用户的浏览模式,如序列模式、关联规则、用户聚类和页面聚类等,理解用户的行为,从而实现:(1)寻找用户的兴趣,进行网页预测推荐,为用户提供个性化服务;(2)改进和优化Web站点结构。 银行 美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。 分析客户使用分销渠道的情况和分销渠道的容量 ;建立利润评测模型;客户关系优化;风险控制等 电子商务 网上商品推荐;个性化网页;自适应网站… 生物制药、基因研究 DNA序列查询和匹配;识别基因序列的共发生性 … 电信 欺诈甄别;客户流失… 保险、零售。。。。。。 6.8.5 数据挖掘的应用 Debt10% of Income Debt=0% Good Credit Risks Bad Credit Risks Good Credit Risks Yes Yes Yes NO NO NO Income$40K Open Accn’t Add New Product Decrease Usage ??? Time 序列分析 Sequence Analysis 决策树 Decision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 6.8.5 数据挖掘的应用 Q Q Q Q I I 1 2 3 4 5 6 factor 1 factor 2 factor n 神经网络 Neural Networks 聚类分析 Clustering 客户细分 市
您可能关注的文档
- 第5节_叶的蒸腾作用和结构.ppt
- 第5课 开辟新航路(人教版说课课件).ppt
- 第5课《古代寓言二则》(共34张PPT).ppt
- 第5课 欧洲的封建文明.ppt
- 第5课《法西斯势力的猖獗》.ppt
- 第5课《亲爱的爸爸妈妈》课件(共46张PPT).ppt
- 第5课《八国联军侵华战争》课件-新人教版.ppt
- 第5课、神秘的图腾柱.ppt
- 第5课田中さんは会社へ行きます标准日本语学习.doc
- 第5课小溪流的歌.ppt
- 2024-2025学年人教版小学数学四年级下册教学计划及进度表.docx
- 2024-2025学年北师大版小学数学二年级下册教学计划及进度表.docx
- 2024-2025学年人教版小学数学五年级下册教学计划及进度表.docx
- 2024-2025学年人教大同版(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年人教精通版(三起)(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年统编版初中道德与法治八年级下册教学计划及进度表.docx
- 2024-2025学年统编版(2024)初中道德与法治七年级下册教学计划及进度表.docx
- 2023-2024学年上海黄埔区中考二模综合测试(物理部分)试卷及答案.pdf
- 2024-2025学年外研版(三起)(2024)小学英语三年级下册教学计划及进度表.docx
- 2025届北京市北京第四中学高三冲刺模拟数学试卷含解析.doc
文档评论(0)