- 1、本文档共99页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
有多个输出神经元的神经网络。文本挖掘数据挖掘与分析的应用本章小结1)大数据分析是指对规模巨大的数据进行分析。2)大数据分析包括:数据挖掘算法、大数据预测性分析、可视化分析等。3)数据挖掘是指在大量的数据中挖掘出有用信息,通过分析来揭示数据之间有意义的联系、趋势和模式。4)数据挖掘可以分为两类:直接数据挖掘和间接数据挖掘。5)分类首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘技术,建立一个分类模型,再将该模型用于对没有分类的数据进行分类。6)聚类是自动寻找并建立分组规则的方法,通过判断样本之间的相似性,把相似样本划分在一个簇中。它的目的就是实现对样本的细分,使得同组内的样本特征较为相似,不同组的样本特征差异较大。7)关联规则就是由关联的规则,它的定义是:两个不相交的非空集合X、Y,如果由X-Y,就说X-Y是一条关联规则。关联规则的强度用支持度(support)和自信度(confidence)来描述。支持度和自信度越高,说明规则越强,关联规则挖掘就是挖掘出满足一定强度的规则。8)在当今大数据时代下,数据挖掘应用到各种各样的领域中,成为高科技发展的热点问题。在软件开发、医疗卫生、金融、教育等方面都可以随处看到数据挖掘的影子。在电子商务上,聚类分析通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,从而帮助电子商务企业了解自己的客户,向客户提供更合适的服务。与分类不同,聚类所要求划分的类是未知的。关联规则关联规则就是由关联的规则,它的定义是:两个不相交的非空集合X、Y,如果由X-Y,就说X-Y是一条关联规则。其中X表示的是两个互斥事件,X称为前因(antecedent),Y称为后果(consequent),上述关联规则表示X会导致Y。在实际应用中,“商品销售”讲述了产品之间的关联性,如果大量的数据表明,消费者购买A产品的同时,也会同时购买B产品。那么A和B之间存在关联性,记为A-B。使用关联规则的过程主要包含以下四个步骤:(1)数据筛选,首先对数据进行清洗,清洗掉那些公共的项目,比如:热门词,通用词(此步依据具体项目而定)。(2)根据支持度(support),从事务集合中找出频繁项集(使用算法:Apriori算法,FP-Growth算法)。(3)根据置信度(confidence),从频繁项集中找出强关联规则(置信度阈值需要根据实验或者经验而定)。(4)根据提升度(lift),从强关联规则中筛选出有效的强关联规则(提升度的设定需要经过多次试验确定)。大数据挖掘数据挖掘是指在大量的数据中挖掘出有用信息,通过分析来揭示数据之间有意义的联系、趋势和模式。数据挖掘是一门交叉学科。数据挖掘可以分为两类:直接数据挖掘和间接数据挖掘。(1)直接数据挖掘直接数据挖掘的目标是利用可用的数据建立一个模型,利用这个模型对剩余的数据,对一个特定的变量进行描述。(2)间接数据挖掘间接数据挖掘的目标中没有选出某一具体的变量,也不是用模型进行描述,而是在所有的变量中建立起某种关系。数据挖掘技术指为了完成数据挖掘任务所需要的全部技术,是数据挖掘方法的集合。在金融、零售等企业已广泛采用数据挖掘技术,分析用户的可信度和购物偏好等。数据挖掘应用在当今大数据时代下,数据挖掘应用到各种各样的领域中,成为高科技发展的热点问题。在软件开发、医疗卫生、金融、教育等方面都可以随处看到数据挖掘的影子,可以使用数据挖掘技术发现大数据的内在的巨大价值。(1)电子邮件系统中垃圾邮件的判断(2)金融领域中金融产品的推广营销(3)商品销售(4)疾病诊断(5)电子商务中的推荐系统数据挖掘算法K-Means算法K-Means算法也叫作k均值聚类算法,它是最著名的划分聚类算法,由于简洁和效率使得它成为所有聚类算法中最广泛使用的。决策树算法决策树算法是一种能解决分类或回归问题的机器学习算法,它是一种典型的分类方法,最早产生于上世纪60年代。决策树算法首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。决策树的原理如下:(1)找到划分数据的特征,作为决策点。(2)利用找到的特征对数据进行划分成n个数据子集。(3)如果同一个子集中的数据属于同一类型就不再划分,如果不属于同一类型,继续利用特征进行划分。(4)指导每一个子集的数据属于同一类型停止划分。决策树算法某女,26岁,相亲,提
您可能关注的文档
最近下载
- 2024年湖南司法警官职业学院单招职业技能测试题库及答案解析.docx VIP
- 好望角型矿船靠离绿华山减载平台对策.doc
- 水平三足球大单元教学设计.doc
- 国有划拨土地使用权出让合同范本(2篇).doc VIP
- 五年级上册语文阅读与理解练习(经典).pdf
- 2024年社区工作总结及2025年工作计划.docx
- 2022年江苏苏州高新区(虎丘区)招聘两新组织专职党务工作者考试真题.docx VIP
- 汽车行业深度报告:奇瑞汽车深度复盘及其产业链梳理,进击的出海龙头-国海证券-2024.4-.pdf VIP
- 公司综合管理部工作计划.docx
- 高考生物二轮总复习省公开课一等奖全国示范课微课金奖PPT课件.pptx VIP
文档评论(0)