极小化标注的海洋文献复杂分类-计算机软件与理论专业论文.docxVIP

极小化标注的海洋文献复杂分类-计算机软件与理论专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
极小化标注的海洋文献复杂分类学位论文完成日期:.釜!!!生兰旦三!里 极小化标注的海洋文献复杂分类 学位论文完成日期:.釜!!!生兰旦三!里 指导教师签字: 答辩委员会成员签字: ≯【 哆一, 怠溉 ^彩 篷男鸟 p :i 独创 独创 声 明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果, 也不包含未获得 (洼!如遗直基丝霞要缱别直明的!奎拦亘窒2或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文作者签名:王秋红 签字同期:2011年3月2.0日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息 研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公 众提供信息服务。(保密的学位论文在解密后适用本授权书) 学位论文作者签名:王秋红 翩酶‰猫导师签字: 铋张沙 签字日期:O f1年3月20日 本文得到:国家自然科学基金项目(No 本文得到: 国家自然科学基金项目(No 2007.卜2009.12)和山东省优秀中 青年科学家科研奖励基金(2008BS01003, 2008.12-2010.12)资助。 极小化标注的海洋文献复杂分类掌 极小化标注的海洋文献复杂分类掌 摘 要 文本自动分类是数据挖掘和机器学习中非常重要的研究领域,本文将文本自 动分类技术应用于海洋信息处理,主要研究通过机器学习的方法解决海洋文献分 类问题。随着海洋科学和信息技术的发展,海洋科学领域的文献资料大量涌现, 使得对其的检索和分类成为急需解决的问题,而人工的信息处理既低效又耗时, 于是海洋文本分类当前面临的问题就是一方面人工标注样本成本高且数量有限, 另一方面大量极易获得的无标注样本无法得到有效的利用,而无标注样本中的分 布信息对我们的文本分类也是有很大帮助的。为此我们引入了机器学习中的半监 督学习和主动学习来解决这一问题。 传统的机器学习方式分为有监督和无监督两种。有监督机器学习需要较大的 已标注样本集,无监督机器学习无法应用少量珍贵的已标注样本且分类效果较 差。相比之下,半监督学习具有极大的优越性,可以同时利用少量的有标注样本 和大量的无标注样本进行学习,因此我们利用半监督学习中的Co.training算法进 行海洋文本分类,构建极小化标注的海洋文本分类系统,通过合理的参数设定, 从而达到良好的分类效果。 半监督学习在训练时难免会有噪音,从而产生结果偏置的情况,主动学习可 以通过选择样本来降低学习模型的偏置和方差。主动学习的研究重点在于学习系 统如何利用自身主动学习的能力,以尽可能少的步骤和尽可能低的标注代价实现 分类性能的有效提升。本文将半监督学习与主动学习相结合,通过主动学习方法 的引入来进一步提高极小化的海洋文本分类系统的性能。 本文的目的在于构建一个基于极小化标注的海洋文献复杂分类系统,其完成 的功能主要包括: (1)海洋文献与非海洋文献之间的是非分类,这属于文本分类的二分类。 (2)海洋文献精细分类。将海洋文献自动分类到各个子类别中,属于文本 分类的多分类。 。本文得到国家自然科学基金项目(No2007.1-2009.12)和山东省优秀中青年科学家科研奖励基 金(2008BS01003,2008.12-2010.12)资助。 (3)极小化标注的海洋文献分类。通过引入半监督学习,我们构建了极小 (3)极小化标注的海洋文献分类。通过引入半监督学习,我们构建了极小 化标注的海洋文献分类系统,同时为了提高分类的准确率,我们考虑通过将半监 督学习与主动学习相结合的方式实现海洋文献的精细分类。 该系统的实现有利于提高海洋文献的检索效率,有助于整合海洋领域文献以 利于涉海领域资源的有效利用。 关键词:海洋文献分类; 最大熵;SVM;J48;半监督学习;Co.training;主动 学习 Il The The Research on Mar i no L i terature Categor i zat i on and Labe l i ng M i n i m i zat i on# Abstract Automatic text Categorization is an important research are

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档