基于典故领域本体的诗词用典自动分析系统.pdfVIP

基于典故领域本体的诗词用典自动分析系统.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于典故领域本体的诗词用典自动分析系统.pdf

第1O卷 第6期 软 什 刊 VoIIONO6 2011q-6月 SOftwareGUide Jun 2011 基于典故领域本体的诗词用典 自动分析系统 姚 蕊 (广 东技术师范学院 工业 中心,广东 广州 510665) 摘 要 :本课题填补了典故领域本体研究的空 白,为开发基于典故领域本体库的各种应用奠定 了基础。为加速数 以 万计的典故的实例化过程 ,本研 究采用 了词典法与互信 息法相结合的中文分词方法协助分解典故要素 ,取得 了很好 的效果 。 关键 词 :典故;领域本体;诗词 OWI;词典分词法;互信息分词法 中图分类号 :TP311.52 文献标识码 :A 文章编号 :1672—7800(2O11)06—008003 典故构成要素 的工作量 。例如 ,“老莱 ”是词典 十I的涧汇 , l 典故领域本体库 的建立 据此计算机程序 自动把 “老莱衣”分解成 “老莱”和 “衣”两 个要素 。 1.1 定义实例 间的关系 (2)批量归纳典故属性 。沿用前例 ,上面运用词典分 典故本体实例之 间存在 以下几种关系 : 词方法之后 ,共有 9个典故包含词汇 “老莱 ”,人T确 定 (1)典故类 的实例 间的 sameAs关系。同一典故,由 “老莱”是典故的人物属性后 ,便可批量地建立起这 9个典 于选取要素 的不 同,会产生多个 同义典故 。例如 ,典故 “桃 故实例 的人物属性 。 花源”与 “武陵源”同义 ,皆出白陶潜 的 《桃花源记》,前者选 (3)批量建立实例间的关系。对于有相 同出处 的典 自篇名 ,后者选 自地点,两者属于 sameAs关系。又如 ,典 故 ,可先批量假定它们有 sameAs关系 , 对于 出处不 同 故 “沧浪濯缨”与 “濯缨”,虽然前者多了一个地点属性 (沧 但典故词语相 同的,可先假定它们有 differentFrom关系 。 浪),但是他们仍然是 sameAs关系。 事后再用人工方式验证这些假 定。因为 已经有 了初步 的 (2)典故属性 的实例 间也存在 sameAs关系 。这是 由 关系归类 ,人工检验 的速度也 比较快。结果我们对 3114 同义词汇或称谓造成 的。例如 ,“广寒宫”与 “蟾宫”同义 , 个典故 自动建立 了 15931个 sameAs关系,238个 differ— 因此,典故 “蟾宫桂”和 “广寒桂”具有相 同的属性。 entFrom关系 。 (3)典故类实例 间的differemFrom关系。少数典故 因方法 2和方法 3比较简单 ,下文只着重 阐述方法 】。 词语相同但含义与出处不同。对此 ,可以用 differentFrom 词典分词方法 即是依据词库把连续文本 自动划分成 关系加 以明确 区分 。 一 系列词汇的过程。典故源 自古汉语 。古汉语 巾两个音 定义典故实例间的这些关系 ,有利于更加灵活地甄别 节 以上的且不可分解 的词汇极少 ,所 以只需建立两字词的 典故 ,使推理系统能够 自动辨别各种 同义和异义词汇 。 词库 即可 。通过分析 《汉语大词典》,可获得 277926个两 1.2 实例化 字词汇。实验结果表 明,应用这个词库 ,22304个 2字 以 典故本体实例化的过程 ,即是对各个典故按上述要素 上的典故 中,有 17504个典故可被顺利分解 ,约 } 78. 进行分解 ,并对各

文档评论(0)

t9s25ccvm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档