- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
产生的决策树会出现过分适应数据的问题 由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异常 对新样本的判定很不精确 防止过分适应的两种方法 先剪枝:通过提前停止树的构造——如果在一个节点划分样本将导致低于预定义临界值的分裂(e.g. 使用信息增益度量) 选择一个合适的临界值往往很困难 后剪枝:由“完全生长”的树剪去分枝——对于树中的每个非树叶节点,计算该节点上的子树被剪枝可能出现的期望错误率 使用一个独立的测试集来评估每颗树的准确率,就能得到具有最小期望错误率的决策树 可以提取决策树表示的知识,并以IF-THEN形式的分类规则表示 对从根到树叶的每条路径创建一个规则 沿着给定路径上的每个属性-值对形成规则前件(IF部分)的一个合取项 叶节点包含类预测,形成规则后件(THEN部分) IF-THEN规则易于理解,尤其树很大时 示例: IF age = “youth” AND student = “no” THEN buys_computer = “no” IF age = “youth” AND student = “yes” THEN buys_computer = “yes” IF age = “middle_aged” THEN buys_computer = “yes” IF age = “senior” AND credit_rating = “excellent” THEN buys_computer = “yes” IF age = “senior” AND credit_rating = “fair” THEN buys_computer = “no” 分类挖掘是一个在统计学和机器学习的领域也被广为研究的问题,并提出了很多算法,但是这些算法都是内存驻留的 可伸缩性问题:要求以合理的速度对数以百万计的样本和数以百计的属性的进行分类挖掘 由大型数据库构造决策树 首先将样本划分为子集,每个子集可以放在内存中 然后由每个自己构造一颗决策树 输出的分类法将每个子集的分类法组合在一起 (其他方法包括SLIQ, SPRINT,RainForest等等) 贝叶斯分类利用统计学中的贝叶斯定理,来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。 朴素贝叶斯分类:假设每个属性之间都是相互独立的,并且每个属性对非类问题产生的影响都是一样的。 后向传播是一种神经网络学习算法;神经网络是一组连接的输入/输出单元,每个连接都与一个权相连。在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确标号来学习。 优点 预测精度总的来说较高 健壮性好,训练样本中包含错误时也可正常工作 输出可能是离散值、连续值或者是离散或量化属性的向量值 对目标进行分类较快 缺点 训练(学习)时间长 蕴涵在学习的权中的符号含义很难理解 很难根专业领域知识相整合 使用一种非线性的映射,将原训练数据映射到较高的维 一个数据被认为是p维向量,数据在这个p维向量空间中被分为两类;SVM的目的是找到一个p-1维的超平面,来划分p维向量空间的数据 在新的维上,它搜索线性最佳分离超平面 (即将一类的元组与其他类分离的“决策边界”)。 使用一个适当的对足够高维的非线性映射,两类的数据总可以被超平面分开。 SVM 使用支持向量(“基本”训练元组)和边缘(由支持向量定义)发现该超平面。 特点: 训练时间非常长,但对复杂的非线性决策边界的建模能力是高度准确的(使用最大边缘) 可以用来预测和分类 应用: 手写数字识别,对象识别,语音识别, 以及基准时间序列预测检验 支持向量 小边缘 大边缘 * Data Mining: Concepts and Techniques * m 设给定的数据集 D 为 (X1, y1), …, (X|D|, y|D|), 其中Xi是训练元组,具有相关联的类标号yi。 可以画出无限多条分离直线(或超平面)将类+1的元组与类-1的元组分开,我们想找出“最好的”那一条 (对先前未见到的元组具有最小分类误差的那一条)。 SVM 要搜索具有最大边缘的超平面,即最大边缘超平面 (MMH) k-最临近分类 给定一个未知样本,k-最临近分类法搜索模式空间,找出最接近未知样本的k个训练样本;然后使用k个最临近者中最公共的类来预测当前样本的类标号 基于案例的推理 样本或案例使用复杂的符号表示,对于新案例,先检测是否存在同样的训练案例;如果找不到,则搜索类似的训练案例 遗传算法 结合生物进化思想的算法 粗糙集方法 模糊集方法 允许在分类规则中定义“模糊的”临界值或边界 预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。 预测和分类的异同 相同点 两者都需要构建模型 都用模型来估计未知值 预测当中主要的估计方法是
您可能关注的文档
- 最新最全面的数据库人事管理系统.doc
- 自动化前沿-数据挖掘技术及其应用.ppt
- 浙江省高等教育自学考试数据库及其应用试题历年试卷八套.doc
- 在JBoss中配置多个数据库和数据源.doc
- 用DM6的API编写数据库自动备份功能.doc
- 应用SAS_EM_进行数据挖掘.ppt
- 杨克诚arcgis课件之四:地理空间数据库管理.ppt
- 学生成绩管理子系统(数据库论文).doc
- 谢邦昌访谈 数据挖掘.doc
- 网上订书系统功能模块图ER图数据流图数据库设计.doc
- Web挖掘技术在VOD系统应用服务器中的深度剖析与创新实践.docx
- 高血压疾病的饮食调控与生活指导.pptx
- 沿黄河经济带视角下山东半岛、中原与关中三城市群城市化进程的比较与协同发展研究.docx
- 农牧交错区弃耕地施肥策略对牧草生长与生态特征的影响探究.docx
- 无线传感器网络下高效异常检测算法的深度探索与实践.docx
- 直线电机轮轨交通系统线路设计参数的深度解析与优化匹配研究.docx
- 和谐社会构建中阶层矛盾的审视与化解策略研究.docx
- 电子辐照法制备长周期光纤光栅:原理、实践与展望.docx
- 经口咽前路寰枢椎复位钢板枢椎螺钉固定:生物力学与临床实践的深度剖析.docx
- 中国5A级风景名胜区景观价值评价体系构建与实践应用.docx
文档评论(0)