一种宋词自动生成的遗传算法_文章学习汇报讲述.pptx

一种宋词自动生成的遗传算法_文章学习汇报讲述.pptx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种宋词自动生成的遗传算法 汇报人:XXX 日期:2016年11月2日 汇报提纲 研究背景 遗传算法 构造宋词生成遗传算法 系统的实现与结果分析 一 、 研究背景 汉语古典诗词的计算化研究始于 20 世纪90 年代中期,到目前为止,已在语料库建立、词汇语义分析、创作风格辨析、联语应对等方面取得了一些初步的成果,但在诗歌的自动生成方面,尚无系统性的学术性研究。相比而言,国外有关机器诗歌自动生成的研究起步较早,目前已尝试了许多方法并积累了一定的经验。 较为成熟的诗歌生成系统主要是Levy 开发的原型系统POEVOLVE,能够生成Limerick(一种起源于欧洲的五行打油诗)。在该系统中将诗歌生成问题看成一个状态空间搜索问题,并提出了语义(meaningfulness), 语法(grammaticality) 和诗性(poeticness)3 个诗歌必须满足的条件。 一 、 研究背景 借鉴上述的遗传算法诗歌生成系统的主要原理,在我们自己建立的全宋词熟语料库(包括切分、词性、音韵、情感、典故、格律、词牌、句法等内容)的基础上,针对宋词自身的特点,按照遗传算法的构造原理,具体给出了一种宋词自动生成的遗传算法,并进行了机器实现。 一 、 研究背景 系统整体框架 二 、 遗传算法 遗传算法(GA)由 Holland 教授于六十年代提出。它是仿真生物遗传学和自然选择机理,通过人工方式所构造的一类智能优化搜索算法。 早期的应用研究主要围绕组合优化问题以及复杂的函数优化问题求解,如今应用研究的领域: NP完全问题 机器学习 并行处理 神经网络权值 知识发现 1、概述 概述 二 、 遗传算法 染色体 基因 2、基本概念 基本概念 二 、 遗传算法 遗传算法(GA)由 Holland 教授于六十年代提出。它是仿真生物遗传学和自然选择机理,通过人工方式所构造的一类智能优化搜索算法。 早期的应用研究主要围绕组合优化问题以及复杂的函数优化问题求解,如今应用研究的领域: NP完全问题 机器学习 并行处理 神经网络权值 知识发现 1、概述 概述 三 、 构造宋词生成遗传算法 东风/夜/放/花/千/树。更/吹落,星/如/雨。宝马/雕车/香/满/路。凤箫/声动,玉壶/光转,一夜/鱼龙舞。蛾儿/雪柳/黄金缕,笑语/盈盈/暗香/去。众里/寻/他/千百/度,蓦然/回首,那人/却/在/灯火/阑珊/处。 在词库里查找这些词的频率,发现每个词的频率都大于2。这说明,除这首词外其它词的分词结果已经完全涵盖了这首词中使用的每一个词语。也就是说,这首词实质上是词库中某些词的一种排列组合形式。因此,我们可以认为诗词生成问题在本质上是一个解空间中寻求最优化的问题。 《青玉案·元夕》 三 、 构造宋词生成遗传算法 因此,可以将遗传算法的优化机制引入到宋词的自动生成模型中。下面将从以下4 个方面给出宋词生成遗传算法的构造方法: 1、求解问题编码 2、初始种群生成 3、适应度函数设计 4、遗传操作(选择,交叉,变异) 三 、 构造宋词生成遗传算法 编码方案 文章提出了将“平、仄”与“0、1”编码相对应的编码方案。 1、编码方案 比如词牌《清平乐》平仄分布如下: ⊙平⊙仄,⊙仄平平仄.⊙仄⊙平平仄仄,⊙仄⊙平⊙仄. ⊙平⊙仄平平,⊙平⊙仄平平.⊙仄⊙平⊙仄,⊙平⊙仄平平. 其中⊙表示可平可仄.根据我们的编码方案可得如下编码串: *0*1,*1001.*1*0011,*1*0*1. *0 *100,*0*100.*1*0*1,*0*100. 三 、 构造宋词生成遗传算法 编码方案 在实际操作中,为缩小问题的解空间,我们将分词模式固定为出现概率最大一种模式: *0/*1,*1/0/01。*1 /*0 /0 /11,*1/*0/*1。 *0/*1/00,*0/*1/00。*1/*0/*1,*0/*1/00。 相应地,我们对词库中的单字词和双字词进行分类:单字词分为平、仄两类,对应编码 0、1;双字词分为平平、平仄、仄平、仄仄 4 类,对应编码 00、01、10、11。 三 、 构造宋词生成遗传算法 初始种群生成 2、初始种群的生成 考虑到宋词严格的格律要求,在求解该优化问题过程中,我们始终将格律要求作为必须满足的约束条件。种群初始化的操作主要有以下步骤: 1)根据给定的主题词,从词库中挑选和主题词相关度大于k1 的词,构成一级候选词空间。再从一级候选词中挑选相关度高的一部分词,组成二级候选词空间。以此递归至候选词空间的词数量大于 n1。 2)从候选词空间随机选择满足押韵要求的词,首先填充每个需要押韵的位置,然后在满足平仄要求的基础上,随机选词填充剩余的位置。同此操作,生成含 N 个个体的的初始种群。 三 、 构造宋词生成遗传算法 适应度函数 3、适应度函数的构造 针对宋词生成问题,个体适

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档