- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SVM方法在《伤寒论》方小样本分类识别中的应用论文.doc
SVM方法在《伤寒论》方小样本分类识别中的应用论文
.freels的快速SVM算法,在保留了SVMLight(http://. )内核的基础上扩展、开发了一个参数优化、仿真及数据分析的辅助软件,可以按设定的区间和步长自动运行训练,并把有用的运行结果单独生成数据文件,方便进一步对结果进行分析。这样,通过减少人为参与,实现了计算机自动选择最优模型的功能,提高了选择最优模型的效率。
将SVM方法应用于《伤寒论》方分类识别的原理是根据历史对已知处方的分类情况进行训练建模产生学习机,用此学习机来识别未知的样本数据。具体做法是将《伤寒论》中的所有方证样本资料进行整理,并将其分为两部分:验证文件、检验文件。验证文件包含用于训练建模的训练集样本和实验集样本。建立检验文件是为了将最终确立的SVM预报模型对其做预报,以检验SVM模型的预测效果(推广能力),检验集的数据不参与训练学习及参数筛选等建模过程。
2 SVM方法对《伤寒论》方按八法训练建模分类实验
2.1 训练样本不变,选取不同参数对建立SVM模型的影响
随机选取《伤寒论》方中传统上按照八法分类法归为汗法的方证26首确定为正样本,其余主要归为下法的处方23个,共49个样本数据作为验证文件的训练建模样本。训练样本的因子都是处方的药物、性味归经、功效、适应证,然后从剩余未参与训练建模的处方中选取一部分数据作为预测文件来检验所建模型的泛化能力。见表1、表2。表1 选取不同参数建立的SVM最优模型(略)表2 最优模型的泛化能力比较(略)
从上面的分析结果可以看出,在样本数比较小的情况下,参数改变对训练建模时间和叠代次数有一定的影响,所建最优模型的结果有较大差异,TS评分值及泛化能力也不一样。试验一模型的正确率和TS评分值比较低,其预测能力就比较低,把与下法相近的十枣汤识别为汗法了,而模型二就预测对了。说明参数的优化对于所建模型的质量好坏具有重要意义。
2.2 训练样本的变化对建立SVM模型的影响
试验一随机选取《伤寒论》方中传统上按照八法分类法归为汗法的方证19首确定为正样本,其余主要归为清法的处方26个,共45个样本数据作为训练建模样本的验证文件。试验二从试验一的训练样本中去除了一部分样本,样本总数变为38,正样本数16。选取的训练样本的因子为药物、性味归经、功效。然后从剩余未参与训练建模的处方中选取一部分数据作为预测文件来检验所建模型的泛化能力。见表3、表4。表3 对不同的训练样本选取相同参数建立的SVM最优模型(略)表4 最优模型的泛化能力检测结果(略)
通过上面的分析结果可以看出,因为样本数比较少,即使样本因子不同,其训练建模时间相差也不大,而最优模型中的参数g发生了很大变化,最优模型交叉验证的正确率、TS平分值、预报概括率、支持向量以及模型的泛化能力均发生了变化,但差异并不大。分析其原因,主要是试验一中的训练样本数虽多,但是样本的质量较差,其中混有一些不是很准确的归类因子;试验二中去除了象麻杏石甘汤、麻黄连翘赤小豆汤、乌梅丸、茵陈蒿汤等样本数据后,所建最优模型的交叉验证的正确率、TS评分值达到了100%,模型的泛化能力明显提高。试验一中预测不准的原因在于黄连汤样本因子中有桂枝、炙甘草、大枣,性味也主要是辛温,与正类样本相似,但是贴近度只有0.31,说明与正样本之间虽然相似,但贴近度比较低。小青龙汤虽然错分的贴近度只有0.07,但还是被错分为负类,充分表明试验一所建模型的泛化能力不如试验二。这说明参与训练建模的样本质量对于所建模型的质量具有直接的影响。 2.3 训练样本因子的变化对建立SVM模型的影响
为了比较分类识别对象与因子之间的线性相关是否对建立的SVM预测模型泛化能力的影响,随机选取《伤寒论》方中归为汗法的方证20首确定为正样本,其余主要归为清法的处方16个,共36个样本数据作为训练建模样本。试验一中选取的训练样本因子为药物的相对药量、性味归经,试验二中选取的训练样本因子为药物的相对药量、性味归经、处方功效。然后从剩余未参与训练建模的处方中选取一部样本数据作为预测文件来检验所建模型的泛化能力。见表5、表6。表5 选取相同的核建立的SVM最优模型(略)表6 最优模型的泛化能力比较(略)
通过表5可以看到,在参与训练建模的样本数相同、样本因子不同的情况下,由于样本数量较少,样本因子相差不是很悬殊,故训练建模时间几乎不受影响;试验一中样本因子虽然比较少,但是能够较好的反映样本的实质,离散度小,故所建最优模型的TS评分值和预报概况率均高于试验二,说明对应的模型具有较好的泛化能力。充分说明参与训练建模的样本的因子与样本之间的相关程度对于所建模型的质量有一定的影响。
3 结论
通过对《伤寒论》方以八法为主题的SVM训练建模应用表明:SVM分类方法是通过寻求支
文档评论(0)