- 241
- 0
- 约9.4千字
- 约 10页
- 2016-11-04 发布于重庆
- 举报
SVM实验报告
SVM分类算法
数据源说明
数据源说远和理解:
采用的实验数据源为第6组:The Insurance Company Benchmark (COIL 2000)
TICDATA2000.txt: 这个数据集用来训练和检验预测模型,并且建立了一个5822个客户的记录的描述。每个记录由86个属性组成,包含社会人口数据(属性1-43)和产品的所有(属性44-86 )社会人口数据派生邮政编码“大篷车:政策” ,是目标变量。
TICEVAL2000.txt: 这个数据集是需要预测( 4000个客户记录)的数据集。TICDATA2000.txt它具有相同的格式,。所有数据集制表符分隔。
TICTGTS2000.txt:最终的目标评估数据。这是一个实际情况下的目标数据,将与我们预测的结果进行校验。我们的预测结果将放在result.txt文件中。
数据集理解:本实验任务可以理解为分类问题,即分为2类,也就是数据源的第86列,可以分为0、1两类。我们首先需要对TICDATA2000.txt进行训练,生成model,再根据model进行预测。
数据清理
代码中需要对数据集进行缩放的目的在于:
避免一些特征值范围过大而另一些特征值范围过小;
避免在训练时为了计算核函数而计算内积的时候引起数值计算的困难。因此,通常将数据缩放到?[ -1,1]?或者是?[0,1]?之间。
svm算法说明
LIBSVM软件包是台湾大学林智仁(Chih-Jen Lin)博士等用C++实现的SVM库,并且拥有matlab,perl等工具箱或者代码,移植和使用都比较方便.它可以解决分类问题(包括C-SVC、n-SVC)、回归问题(包括e-SVR、n-SVR)以及分布估计(one-class-SVM )等问题,提供了线性、多项式、径向基和S形函数四种常用的核函数供选择,可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。
在源程序里面,主要由以下2个函数来实现:(1) struct svm_model *svm_train(const struct svm_problem *prob, const struct svm_parameter *param);该函数用来做训练,参数prob,是svm_problem类型数据,具体结构定义如下:struct svm_problem //存储本次参加运算的所有样本(数据集),及其所属类别。{int n; //记录样本总数double *y; //指向样本所属类别的数组struct svm_node **x; //指向一个存储内容为指针的数组};其中svm_node的结构体定义如下:struct svm_node //用来存储输入空间中的单个特征{int index; //输入空间序号,假设输入空间数为mdouble value; //该输入空间的值};所以,prob也可以说是问题的指针,它指向样本数据的类别和输入向量,在内存中的具体结构图如下:
图1.1LIBSVM训练时,样本数据在内存中的存放结构只需在内存中申请n*(m+1)*sizeof(struct svm_node)大小的空间,并在里面填入每个样本的每个输入空间的值,即可在程序中完成prob参数的设置。参数param,是svm_parameter数据结构,具体结构定义如下:struct svm_parameter // 训练参数{int svm_type; //SVM类型,int kernel_type; //核函数类型int degree; /* for poly */double gamma; /* for poly/rbf/sigmoid */double coef0; /* for poly/sigmoid *//* these are for training only */double cache_size; /* in MB 制定训练所需要的内存*/double eps; /* stopping criteria */double C; /* for C_SVC, EPSILON_SVR and NU_SVR ,惩罚因子*/int nr_weight; /* for C_SVC 权重的数目*/int *weight_label; /* for C_SVC 权重,元素个数由nr_weight 决定*/double* weight; /* for C_SVC */double nu; /* for NU_SVC, ONE_CLASS, and NU_SVR */double p; /* for EPSILON_SVR */int sh
您可能关注的文档
- NX作图题.doc
- ORACLE基本概念及操作.doc
- oracle数据库参数设置技术手册.doc
- Oracle数据库参数优化和调整参数主要有以下内容.doc
- Oracle神谕翻译.docx
- Oracle数据库系统加固规范.doc
- Nutanix设备初始化安装文档.docx
- ORACLE数据库管理初始化参数.doc
- oracle考题.doc
- oracle遇到的问题及答案.docx
- 2026考研英语二万能作文模板 图表+书信+议论文三件套汇总.docx
- 2026教师资格证认定体检标准与网上报名流程汇总表.docx
- 漯河市离婚协议书(2026标准规范版).docx
- 2026考研英语二图表+书信+议论文万能作文模板三件套完整版.docx
- 2026教师资格证认定体检标准及网上报名流程指南表.docx
- 2026年茶馆服务品牌形象与传播报告.docx
- 智能感知与反馈技术在智慧校园学习环境中的应用与优化策略教学研究课题报告.docx
- 高中生物教学中基因编辑技术伦理的课题报告教学研究课题报告.docx
- 3D打印技术在小学STEAM教育课程开发中的创新应用课题报告教学研究课题报告.docx
- 2026年合成橡胶新材料行业重点区域产业发展与政策支持分析.docx
最近下载
- (正式版)C-J-T 3008.3-1993 城市排水流量堰槽测量标准巴歇尔水槽.docx VIP
- (新教材)2026年春期部编人教版二年级下册语文教学计划及进度表.pdf
- 冀教版小学二年级数学下册课件《认识分米、米》.ppt VIP
- 火灾事故现场处置应急演练记录.docx VIP
- 化工安全与环保(梁志武)课件 第一章 化工生产安全管理基础.pptx VIP
- 2025山东军转考试真题及答案.doc VIP
- 儿童早期矫正系统讲解.pptx VIP
- 地震应急预案(通用22篇).docx VIP
- (2025年)东南大学艺术设计专业考研真题附答案.docx VIP
- JJF(闽) 1145-2024 恒温振荡器校准规范.pdf VIP
原创力文档

文档评论(0)