基于SVM的宋词风格分类的设计与实现.docVIP

基于SVM的宋词风格分类的设计与实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
题 目:基于SVM的诗词风格分类 (自然语言处理结课论文) 姓 名: 学 院: 系: 专 业: 年 级: 学 号: 2013年12月29日 [摘要] 为了提高宋词风格划分的准确性,本文提出了基于SVM和协同学习的宋词风格自动判定方法,在小规模人工标注训练语料上,利用协同学习方法,在大规模未标注全宋词语料库上进行半监督学习,并训练得到风格SVM分类器。在本文搭建的模型系统上进行的实验表明,本文所提出的研究方法,初步解决了宋词的风格划分,也为后继的相关研究提供了理论依据和实验基础。 [关键词]风格划分 宋词 SVM分类 目录 第1章 引言 - 4 - 1.1 研究背景及意义 - 4 - 1.2 计算诗学综述 - 4 - 1.3本文的工作和主要内容 - 5 - 第2章 基于SVM的古诗场景时间判定 - 6 - 2.1 SVM概述 - 6 - 2.2 基于SVM的宋词风格判定 - 6 - 2.3 训练样本的获取 - 7 - 2.3.1 文本预处理 - 7 - 2.3.2 文本表示模型 - 8 - 2.3.3 特征选取 - 8 - 2.3.4 文本特征权重计算 - 9 - 2.3.5 训练集的标注与构建 - 9 - 2.4 SVM分类器的构建 - 10 - 2.4.1 协同训练算法概述 - 10 - 2.4.2 基于协同训练算法的半监督学习 - 11 - 2.5 实验与结果分析 - 11 - 2.5.1 实验数据 - 11 - 2.5.2 实验结果分析 - 12 - 第3章 总结与展望 - 13 - 参考文献 - 14 - 第1章 引言 1.1 研究背景及意义 中国古典诗词源远流长,博大精深,是中华民族文化艺术宝库中的瑰宝。在信息化高度发展的今天,如何运用新的技术形式来传承、保护及开发中国古典诗词,对于传统文化的传承与发展至关重要。 其中的宋词作为宋代文学的典范,赢得了众多文人骚客的青睐,成为中国古代诗词中的一颗璀璨的明珠。因此,通过对宋词进行研究进而了解宋代文化一直是语言文学研究工作者的一个研究热点。 本文以宋词为研究对象,研究宋词风格的计算机自动分类。宋词的分类研究,可以帮助读者更好地把握整个诗歌的整体意境,了解诗歌的思想感情。 1.2 计算诗学综述 本设计所依托的理论研究基础主要是计算诗学。厦门大学周昌乐教授在其著作《心脑计算举要》中首次提出了计算诗学这一概念。所谓计算诗学[1],指的是采用计算思想、方法和技术等从事诗歌(推而广之,也可以包括其他文学形式)的研究工作。广义的计算诗学,主要是对诗歌文本的各种规律的研究,例如诗歌机器分类、诗歌风格的计算机辅助归纳、诗学知识的计算机辅助发现、诗歌创作的计算机辅助系统工作、诗歌用词用语的统计、诗学语料库、文献库等等。而狭义的计算诗学,则主要是指使计算机系统具备诗歌理解、欣赏和创作的能力,如诗歌作品的计算机理解、计算机诗歌创作系统以及计算机歌曲创作系统等。由于诗歌语言的独特复杂性,计算诗学是计算语言学研究领域中充满挑战的一个年轻的研究分支。 就中国古典诗词而言,自20世纪90年代后,北京大学计算语言学研究所、台湾元智大学中国语文学系、重庆大学计算机学院以及厦门大学艺术认知与计算实验室等不少学术机构和学者陆续在诗歌语料库及知识库的建设[2-4]、韵律分析[5]、风格分析[6-8]、情感分析[9]和诗歌自动生成[10-13]等领域开展了汉语计算诗学的广泛研究。 北京大学计算语言学研究所与台湾元智大学合作,在90年代后期开发了“古诗研究的计算机支持环境”模型系统 [14],初步实现了超文本阅读,全文检索、关键词检索以及计算机语言学辅助研究等功能。其随后开发的“宋代名家诗自动注音系统”将基于统计的语言模型与宋词的音韵特点相结合,采用条件概率策略、互信息策略以及规则策略三种多音字自动注音策略,实现宋词的自动注音[2]。 重庆大学计算机学院的易勇博士在其论文“计算机辅助诗词创作中的风格辨析及联语应对研究”[15]中,对诗词采用向量空间模型表示,并用基于机器学习中的Na?ve Bayes等方法,首次提出了古典诗词的豪放婉约风格判析计算模型,并利遗传算法等方法对模型进行改进,取得了较好的判定效果。 北京大学计算语言学研究所运用语言学的手段对古诗词进行研究,相供的研究成果能够对古诗词、古汉语领域的研究提供有益的帮助。在胡俊峰博士的论文“基于词汇语义分析的唐宋诗计算机辅助深层研究”[16]中,将计算语言学的技术根据古诗词的特点加以改造,取得了有益的成果。其系统提取积累了有关中国古诗词的语料及语言信息知识库,也为今后的古诗词、古汉语相关领域的研究奠定了良好的基础。 厦门大学自2001年以来,在周昌乐教授带领下开始中国古典诗词计算化的研究工作,

文档评论(0)

AnDyqaz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档