- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多视图的半指导分类方法研究 黄书剑 实验目的 合作方法: 完全信任对方 采用相同意见 训练集的扩充方法: 按照训练集中的数据分布进行的。 如果unlabeled集合的数据分布与原训练集不同 --〉 按照置信度添加 训练方法(Co-Training) 对于Task1: 方法一:用两个视图分别训练分类器,根据训练数据中正例反例的比例关系(2:7),从各自的标记的未标记数据集合中取出置信度最高的4个正例和14个反例,加到对方的训练集合中,重复训练。 方法二:用两个视图分别训练分类器,不考虑正反例的比例关系,直接从各自的标记的未标记数据集合中取出置信度最高且大于0.7的15个实例,加到对方的训练集合中,重复训练。 方法三:用两个视图分别训练分类器,取出未标记数据集合中两个分类器结论相同实例,加入双方的训练集合中,重复训练。 方法四:用两个视图分别训练分类器,按照置信度由高到低取出未标记数据集合中两个分类器结论相同的15个实例,加入双方的训练集合中,重复训练。 训练方法(cont.) 对于Task2: 由于视图较多,且表达能力各不相同,本文首先选取了表达能力较强的视图ancurl和视图url作为分类视图,在这两个视图中试验了以上4种方法。 此外,考虑到即使是上面所选取的两个视图也未必能独立达到比较好的分类效果,本文通过将所有5个视图合并起来进行自学习的方法建立了一个单视图分类器。 特征选择 测验方法: 训练结果是分别得到了两个视图上的分类器,在测试时,分别用两个分类器对测试样例进行标记,并以各自的置信度作为权重进行投票,得到标记的结果。 对各种训练方法的结果检验采用了在原训练集合上的Leave One Out方法。 实验结果 实验结果(cont.) 结果分析 实验结果中,所采用的几种方法在各自的co-training过程之后,在初始训练集上的准确率发生了一些变化,这是由于综合考虑了未标记数据的可能分布引起的。 在所列出的四个方法中,方法一的结果最好,一种可能的解释是:方法一很好的保持了训练数据集合上正反例的分布,并且在一定程度上加强了这种分布。 另一方面,采用基于置信度投票的集成方法则确实带来了precision的提高。 Thank you~ * * 基于BayesNet的Leave One Out检验: 根据上图,Task1 FullText和Inlinks,采用Information Gain,选取两个视图的属性数量分别为90、45 。 同样的,对于Task2 中Url和Ancurl视图,选择的属性数目分别为:90,80。在全部特征集合中选择225个属性。 20 0.935 0.955 0.97 BayesNet 23 0.92 0.955 0.965 方法四 19 0.935 0.96 0.97 方法三 25 0.91 0.955 0.96 方法二 22 0.935 0.945 0.975 方法一 different decisions precision2 precision1 precision Task1 precision是整个分类器的精确度; precision1, precision2分别是训练得到的两个视图上的分类精确度; difference decisions是两个分类器产生分歧的次数; BayesNet表示仅用分类器,不进行半指导的合作学习的效果 - - - 0.967 AllView 15 0.927 0.95 0.957 BayesNet 23 0.917 0.93 0.957 方法四 17 0.927 0.937 0.943 方法三 16 0.93 0.94 0.947 方法二 13 0.943 0.96 0.963 方法一 different decisions precision2 precision1 precision Task2 precision是整个分类器的精确度; precision1, precision2分别是训练得到的两个视图上的分类精确度; difference decisions是两个分类器产生分歧的次数; BayesNet表示仅用分类器,不进行半指导的合作学习的效果; AllView表示在Task2上,用所有属性一起进行特征选择并构造分类器的结果。 Next
您可能关注的文档
最近下载
- 家居装饰行业大数据精准营销策略分析报告.docx
- SH217_03ERP项目_MM物资组关键方案介绍_收货_v1.1-.pptx VIP
- 格物入门. 第1-7卷 丁韪良 著 同治7年 北京 同文馆1.pdf VIP
- 电磁场的对称性分析.pdf VIP
- 传感器基础教科书原理和特点讲解.pdf VIP
- TCBDA51-2021 住宅装饰装修工程施工技术规程.pdf VIP
- 最新人教版九年级数学下册 全册教学课件全集(858张).ppt VIP
- TCBDA 55-2021 住宅室内装饰装修工程质量验收标准.docx VIP
- SH217_03ERP-2_详细业务蓝图及解决方案_3.1-神朔修改后.docx VIP
- 2025年重庆市中考数学试卷(含标准答案)原卷.pdf
文档评论(0)