基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.docVIP

下载本文档

3
0
约9.16千字
约 8页
2015-08-10 发布于湖北
举报
版权申诉

基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于二元根词相关性的三字格词语知识挖掘研究-盛玉麒.doc

基于二元根词相关性的汉语三字格词语知识挖掘研究* 山东大学盛玉麒（*本文得到国家社科基金项目“基于语料库的汉语根词相关性句法模型研究”的经费资助）一、词相关性 1．相关性理论 “相关性”通常指随机事件之间的关系。在数理语言学领域常指两个语言单位的关系程度。可以是字与字之间的相关性、也可以是词与词、短语与短语、句子与句子之间的关系。在计算语言学中，常用“共现”一词表示两个成分共同出现在一个语句中。相比之下，“共现”只是强调同时出现，而“相关性”则明确度表达了“关系的程度”。统计学有“相关分析”法，专门研究随机变量之间的相关性，包括偏相关、复相关、定序变量相关等不同类型相关性的统计分析。本文所谈“二元相关性”是指任意两个词之间的关系程度。可以把这种关系想象成词的矩阵，纵横分别按照自然数列排列全部词，两两组合的节点数就是相关性组合的理论数值。假设有10000个词，那么，相关性组合的理论数值就是10000*10000=1亿个。但是实际应用中绝不会有那么多。因为许多词之间由于句法功能的差异以及应用分布的关系，包括合理组合与非合理组合。例如下面的例子：李嘉诚称，“事实上，中国人有好人，也都有差的；外国亦都有好有差，国籍没有特别的关系。” 没有分词的情况下，可根据标点符号分隔的两个相邻单位之间就存在相关性， “事实上，中国人有好人”、“ 中国人有好人，也都有差的；”等等。分词标注词性后，得到如下文本：李/nr 嘉诚/nr 称/v ，/w “/w 事实/n 上/f ，/w 中国/ns 人/n 有/v 好/a 人/n ，/w 也/d 都/d 有/v 差/a 的/u ；/w 外国/n 亦/d 都/d 有/v 好/a 有/v 差/a ，/w 国籍/n 没有/d 特别/a 的/u 关系/n 。/w ”/w 其中“李/nr 嘉诚/nr 称/v ，/w”算上标点一共4个单位，其中的二元相关性组合就有“李/nr 嘉诚/nr”、“嘉诚/nr 称/v”和“称/v ，/w”3组。显然“李/nr 嘉诚/nr”和“嘉诚/nr 称/v”具有合理性，而“称/v ，/w”就不具有合理性。根据相关性的程度可大致分为“高、中、低、无”四种。相关性与结构关系不同，结构关系是具有内在逻辑规定性的关系，例如主谓、述宾、偏正、述补等基本句法结构关系。相关性是指“随机变量”之间的关系，随机变量是不确定性的量，并不能确定是否存在真正的逻辑关系，所以要通过统计分析来求证。 2．相关性的获得获得相关性的途径有两条：一是从理论预设为主，将所有的词建立二元搭配矩阵，然后逐一筛选排查；二是从抽样语料中进行统计分析，找出实际使用中存在的相关性组合。前一种方法具有“穷尽性”，但是工作量大，可控性不足，因为人工筛选排查过程如何防止错漏是一个大问题。判断标准也不好掌握。因为词离开具体的语境后，往往很难判断其合理性。后一种方法往往受限于抽样语料的规模。从理论上说，不管语料库多大，都具有不完备性，因此一定会有遗漏。二者相比，后者具有现实可行性。本研究采用基于语料库的统计分析方法进行词相关性的知识挖掘。 3．相关性的意义用相关性来描述语言单位之间的关系具有统计学的意义。现代汉语关于词的定义中有“结构稳定性”、“历史继承性”、“社会通用性”等标准。其中的“结构稳定性”用相关性进行描述就属于“高相关性”。新词语多属尚未达到“稳定性”的程度，可以用“中低稳定性”加以描述。因此，在新词语知识挖掘研究中，相关性研究就有了重要的意义。从词长看，新词语一般多为2——4个音节，5音节以上的很少。其中，双音节词与双音短语之间的区别难度最大。三字格中除了少数被收入辞典的惯用语等固定短语之外，多数为临时短语，真正的“三音节词”并不多。四字格中除成语外，情况与三字格类似。固定短语一般都是从临时短语发展来的，都经过了“临时短语”——“准固定短语”的阶段，因此，从3-4音节的相关性组合中挖掘“准固定短语”应是新词语研究的一个重点。二、抽样语料库根据2003年1月分解放军报电子版文本语料，通过word字数统计结果为2128619个汉字，不计空格字符数为3119202个。采用中科院计算所自动分词软件进程分词和标注词性作为预处理。自动分词后得到830797词次，统计结果得到词种37065个。其中：单音词 4702个，累计使用次413186次；双音词24543个，累计使用次380400次；三音词4663个，累计使用次27167次；四音词2899个，累计使用次9398次；五字以上词258个，累计使用次646次。列表如下：表1.抽样语料库词频统计结果词长词种所占比例累计频次所占比例单音词 4702 12.69% 413186 49.73% 双音词 24543 66.22% 38040