基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.docVIP

基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc

基于二元根词相关性的 汉语三字格词语知识挖掘研究* 山东大学 盛玉麒 (*本文得到国家社科基金项目“基于语料库的汉语根词相关性句法模型研究”的经费资助) 一、词相关性 1.相关性理论 “相关性”通常指随机事件之间的关系。在数理语言学领域常指两个语言单位的关系程度。可以是字与字之间的相关性、也可以是词与词、短语与短语、句子与句子之间的关系。 在计算语言学中,常用“共现”一词表示两个成分共同出现在一个语句中。相比之下,“共现”只是强调同时出现,而“相关性”则明确度表达了“关系的程度”。统计学有“相关分析”法,专门研究随机变量之间的相关性,包括偏相关、复相关、定序变量相关等不同类型相关性的统计分析。 本文所谈“二元相关性”是指任意两个词之间的关系程度。可以把这种关系想象成词的矩阵,纵横分别按照自然数列排列全部词,两两组合的节点数就是相关性组合的理论数值。 假设有10000个词,那么,相关性组合的理论数值就是10000*10000=1亿个。但是实际应用中绝不会有那么多。因为许多词之间由于句法功能的差异以及应用分布的关系,包括合理组合与非合理组合。例如下面的例子: 李嘉诚称,“事实上,中国人有好人,也都有差的;外国亦都有好有差,国籍没有特别的关系。” 没有分词的情况下,可根据标点符号分隔的两个相邻单位之间就存在相关性, “事实上,中国人有好人”、“ 中国人有好人,也都有差的;”等等。 分词标注词性后,得到如下文本: 李/nr 嘉诚/nr 称/v ,/w “/w 事实/n 上/f ,/w 中国/ns 人/n 有/v 好/a 人/n ,/w 也/d 都/d 有/v 差/a 的/u ;/w 外国/n 亦/d 都/d 有/v 好/a 有/v 差/a ,/w 国籍/n 没有/d 特别/a 的/u 关系/n 。/w ”/w 其中“李/nr 嘉诚/nr 称/v ,/w”算上标点一共4个单位,其中的二元相关性组合就有“李/nr 嘉诚/nr”、“嘉诚/nr 称/v”和“称/v ,/w”3组。显然“李/nr 嘉诚/nr”和“嘉诚/nr 称/v”具有合理性,而“称/v ,/w”就不具有合理性。 根据相关性的程度可大致分为“高、中、低、无”四种。 相关性与结构关系不同,结构关系是具有内在逻辑规定性的关系,例如主谓、述宾、偏正、述补等基本句法结构关系。相关性是指“随机变量”之间的关系,随机变量是不确定性的量,并不能确定是否存在真正的逻辑关系,所以要通过统计分析来求证。 2.相关性的获得 获得相关性的途径有两条: 一是从理论预设为主,将所有的词建立二元搭配矩阵,然后逐一筛选排查;二是从抽样语料中进行统计分析,找出实际使用中存在的相关性组合。 前一种方法具有“穷尽性”,但是工作量大,可控性不足,因为人工筛选排查过程如何防止错漏是一个大问题。判断标准也不好掌握。因为词离开具体的语境后,往往很难判断其合理性。 后一种方法往往受限于抽样语料的规模。从理论上说,不管语料库多大,都具有不完备性,因此一定会有遗漏。二者相比,后者具有现实可行性。本研究采用基于语料库的统计分析方法进行词相关性的知识挖掘。 3.相关性的意义 用相关性来描述语言单位之间的关系具有统计学的意义。现代汉语关于词的定义中有“结构稳定性”、“历史继承性”、“社会通用性”等标准。其中的“结构稳定性”用相关性进行描述就属于“高相关性”。 新词语多属尚未达到“稳定性”的程度,可以用“中低稳定性”加以描述。因此,在新词语知识挖掘研究中,相关性研究就有了重要的意义。 从词长看,新词语一般多为2——4个音节,5音节以上的很少。其中,双音节词与双音短语之间的区别难度最大。三字格中除了少数被收入辞典的惯用语等固定短语之外,多数为临时短语,真正的“三音节词”并不多。四字格中除成语外,情况与三字格类似。 固定短语一般都是从临时短语发展来的,都经过了“临时短语”——“准固定短语”的阶段,因此,从3-4音节的相关性组合中挖掘“准固定短语”应是新词语研究的一个重点。 二、抽样语料库 根据2003年1月分解放军报电子版文本语料,通过word字数统计结果为2128619个汉字,不计空格字符数为3119202个。 采用中科院计算所自动分词软件进程分词和标注词性作为预处理。 自动分词后得到830797词次,统计结果得到词种37065个。其中:单音词 4702个,累计使用次413186次;双音词24543个,累计使用次380400次;三音词4663个,累计使用次27167次;四音词2899个,累计使用次9398次;五字以上词258个,累计使用次646次。列表如下: 表1.抽样语料库词频统计结果 词长 词种 所占比例 累计频次 所占比例 单音词 4702 12.69% 413186 49.73% 双音词 24543 66.22% 38040

文档评论(0)

000 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档