- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
利用SQLServe进行决策树挖掘方法研究.doc
利用SQL Serve 进行决策树挖掘方法研究 系统开发语言 SQL Server 2005 数据库选用 SQL Server 2005
程序详细功能要求 1 围绕决策树算法展开大量的研究,提出许多改进、优化算法。其工作主要集中在如下几个方面:
①扩充决策树属性的取值范围及改进分离属性的选择。
②提高决策树构造效率,削减数据库遍历次数,减少I/O 操作。
③优化决策树,简化决策树输出。
④扩充决策树,形成决策图。
⑤将遗传算法、神经网络技术、粗糙集理论等引入决策树算法。
2 对ID3算法进行研究发现存在的缺点
①ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。
②ID3算法只能对描述属性为离散型属性的数据集构造决策树。
3 针对ID3算法并结合C4.5算法分析可以做出改进的方面
①用信息增益率来选择属性
克服用信息增益来选择属性时偏向选择值多的属性的不足。
②可以处理连续数值型属性
运用C4.5来处理离散型描述属性和连续性描述属性。
③采用一种后剪枝方法
避免树的高度无节制的增长,避免过度拟合数据,该方法使用训练样本集本身来估计剪枝前后的误差,从而决定是否真正剪枝。
④对于缺失值的处理
在某些情况下,可供使用的数据可能缺少某些属性的值。
4 仿真实验的挖掘过程:
在SQL Server 2005中构建决策树系统
①新建一个Analysis Services项目
通过SQL Server Business Intelligence Development Studio打开Analysis Services 集成环境,新建一个Analysis Services 项目。
②新建一个数据源和数据视图
③创建报到信息挖掘模型
④部署项目并处理挖掘模型
⑤模型理解和解释
5 算法的性能评价
从所构建的决策树的尺寸和精确性来讲,新算法与ID3算法相差不大;但是由于新算法在构建决策树时避免了多值偏向,因此从决策树的可理解性来讲,新算法要优于ID3算法。通过实验分析,从以下几方面评价算法的性能及优缺点:
①预测准确性:该指标描述模型准确预测新的或未知的数据类的能力。
②描述的简洁性:这是针对分类发现模型对问题的描述方式以及该描述方式的可理解水平提出的。
③计算复杂性:计算复杂性依赖于具体的实现细节,在数据挖掘中,由于某种操作对象是大量的数据库,因此空间和时间的复杂性问题将是非常重要的一个环节,将直接影响生成与使用模型的计算成本。
④模型强健性:强健性是对模型预测准确性的一个补充,是在存在嗓声及数据缺损的情况下,准确对未知其类的数据进行分类的能力。
⑤处理规模性:处理规模性是指在巨量数据的情况下构造模型的能力以及构造分类模型的精确度。
以上是设计要求,本科的毕业设计,要做仿真+一万字论文,能做的加QQ座机电话号码5 详谈 注明:数据挖掘
论文要求
文档评论(0)