基于二元根詞相关性的三字格词语知识挖掘研究-盛玉麒.docVIP

  • 8
  • 0
  • 约9.21千字
  • 约 8页
  • 2016-11-27 发布于重庆
  • 举报

基于二元根詞相关性的三字格词语知识挖掘研究-盛玉麒.doc

基于二元根詞相关性的三字格词语知识挖掘研究-盛玉麒

基于二元根词相关性的 汉语三字格词语知识挖掘研究* 山东大学 盛玉麒 (*本文得到国家社科基金项目“基于语料库的汉语根词相关性句法模型研究”的经费资助) 一、词相关性 1.相关性理论 “相关性”通常指随机事件之间的关系。在数理语言学领域常指两个语言单位的关系程度。可以是字与字之间的相关性、也可以是词与词、短语与短语、句子与句子之间的关系。 在计算语言学中,常用“共现”一词表示两个成分共同出现在一个语句中。相比之下,“共现”只是强调同时出现,而“相关性”则明确度表达了“关系的程度”。统计学有“相关分析”法,专门研究随机变量之间的相关性,包括偏相关、复相关、定序变量相关等不同类型相关性的统计分析。 本文所谈“二元相关性”是指任意两个词之间的关系程度。可以把这种关系想象成词的矩阵,纵横分别按照自然数列排列全部词,两两组合的节点数就是相关性组合的理论数值。 假设有10000个词,那么,相关性组合的理论数值就是10000*10000=1亿个。但是实际应用中绝不会有那么多。因为许多词之间由于句法功能的差异以及应用分布的关系,包括合理组合与非合理组合。例如下面的例子: 李嘉诚称,“事实上,中国人有好人,也都有差的;外国亦都有好有差,国籍没有特别的关系。” 没有分词的情况下,可根据标点符号分隔的两个相邻单位之间就存在相关性, “事实上,中国人有好人”、“ 中国人有好人,也都有差的;”等等。 分词标

文档评论(0)

1亿VIP精品文档

相关文档