- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据
万方数据
南开大学学位论文原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所 取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包 含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。
学位论文作者签名:张璐 2015 年 6 月 8 日
非公开学位论文标注说明
(本页表中填写内容须打印)
根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申 请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本 说明为空白。
论文题目
申请密级
□限制(≤2 年)
□秘密(≤10 年)
□机密(≤20 年)
保密期限
20
年月日至 20
年月日
审批表编号
批准日期
20 年月日
南开大学学位评定委员会办公室盖章(有效)
注:限制★2 年(可少于 2 年);秘密★10 年(可少于 10 年);机密★20 年(可少于 20 年)
中文摘要
中文摘要
中文摘要
特征选择,是在利用机器学习算法构建模型前,对原始数据的预处理过程, 是机器学习领域受到广泛关注的研究问题之一。对于高维数据的分析计算,一 方面,很容易陷入“维度灾难”的困境;另一方面,可能并非所有维度的数据 或概念都同样包含重要的预测信息。因而,特征选择算法作为数据的降维技术 显得尤为重要。总体来讲,特征选择算法中的核心问题包括计算:(1) 特征子集 与预测类别的相关性;(2) 特征间包含分类信息的冗余性;(3)平衡(1)和(2)二者 的权重比例。
在考虑特征与类别相关程度的评估时,往往忽略了特征对区分不同类别贡献 程度不均的问题,仅计算特征与整体类别的关系。本文针对该问题,提出了特 征分类能力的向量化表示,并利用特征对于区分不同类别能力的差异,选择“互 补”特征进入特征子集,从而优化特征选择过程,快速得到具有较优分类能力 的特征子集。并通过与流行的特征选择算法进行对比实验,证明了本文提出的 CFSCC 算法能够在选择较少的特征数目的情况下,仍然具有更优的分类效果。 对于特征子集分类能力的度量,多数算法通过特征间冗余性的计算,考虑所 选子集特征之间的相互影响;而在估算特征子集与类别的相关性时,隐含地假 设了特征的独立性,忽略了特征组合对于相关性计算的影响。然而,将子集中 单个特征与类别的相关度的平均值作为子集分类能力的度量,同时利用特征间 相似度近似估计特征冗余量,并未充分考虑特征组合对于类别间相关性的影响 以及相关性与冗余性的内在关系。事实上,特征组合本身可能对于分类能力具 有很强的贡献力,起到提升分类效果的作用,也可能干扰分类决策。而冗余性 的度量应该建立在提供分类信息的重合性的基础上,并非特征本身的相似度。 由此,本文定义了特征互补量和冗余量的计算方法,在考虑特征间作用力的情 况下,度量特征子集与类别的相关性,并结合特征冗余量,定义评价函数。同 时依据提出的特征分类能力的向量化表征,通过加入结构互补性较强的特征完 成搜索,以快速得到较优的特征子集。最后,通过对比实验证明了算法的有效
性。
关键词:特征选择;特征分类能力;特征相互作用力
I
Abst
Abstract
Abstract
Feature selection is a pretreatment process on the source data before construct models depends on the machine learning algorithms, which is a research problem widely concerned. For calculation and analysis on the high dimensional data, on the one hand, it is easy to fall into the “Curse of Dimensionality” predicament; on the other hand, it may not true that all dimensions of data or concepts contains important information for prediction all the same. In addition, in the process of dealing with data, it may also have the request for interpretation analysis, which is to understand the implied informati
您可能关注的文档
- 基于全寿命周期的清连高速公路养护规划研究-桥梁与隧道工程专业论文.docx
- 基于无线通信技术的控制系统体系结构的分析-控制理论与控制工程专业论文.docx
- 基于微电阻测量的短路故障定位仪-电子与通信工程专业论文.docx
- 基于可靠度理论的既有桥梁健康状况评估-建筑与土木工程专业论文.docx
- 基于时空融合的运动对象视频分割-系统工程专业论文.docx
- 基于输入输出数据的非线性系统建模与实验-控制理论与控制工程专业论文.docx
- 基于说话人识别技术的身份认证系统-电路与系统专业论文.docx
- 基于手写病人信息查询系统设计-机械制造及其自动化专业论文.docx
- 基于损伤理论的混凝土抗冻耐久性研究-结构工程专业论文.docx
- 基于胜任力的公共安全管理培训系统研究-企业管理专业论文.docx
- 基于算子理论的优化跟踪控制系统研究-控制理论与控制工程专业论文.docx
- 基于速率的网络拥塞控制协议若干技术研究-计算机应用技术专业论文.docx
- 基于神经网络的机器人路径规划仿真系统的设计与实现-软件工程专业论文.docx
- 基于时空线形图的地铁可视化进度控制系统-建筑与土木工程专业论文.docx
- 基于均匀圆阵的波达方向估计算法的性能研究-电路与系统专业论文.docx
- 基于网络编码的P2P点播算法设计与仿真-通信与信息系统专业论文.docx
- 基于物质流对钢铁企业能耗影响的节能分析研究-控制理论与控制工程专业论文.docx
- 基于无线传感器网络的钢丝绳无损检测-软件工程专业论文.docx
- 基于网络层析成像的多时隙故障链路诊断-通信与信息系统专业论文.docx
- 基于特征值的波束形成(EBB)方案研究-通信与信息系统专业论文.docx
最近下载
- 党委前置研究讨论重大事项清单及程序.docx VIP
- 第三单元(知识清单)-2024-2025学年二年级语文上册单元复习(统编版).docx VIP
- 新版高中物理必做实验目录及器材--(电子版).xls VIP
- 学习贯彻《关于加强党的作风建设论述摘编》PPT:持之以恒推进作风建设常态化长效化,保持党的先进性和纯洁性(附文稿).pptx VIP
- 工作饱和度分析.doc VIP
- 上海沪教版六年级有理数综合复习讲义.docx VIP
- 《Linux网络操作系统实用教程》全套教学课件.pptx
- CCC强制性产品认证培训教材(PPT 89页).ppt VIP
- 2025全国青少年模拟飞行考核理论知识题库40题及完整答案1套.docx VIP
- 中石化安全培训考试试题及答案安全教育培训考试试题及答案.docx VIP
原创力文档


文档评论(0)