- 8
- 0
- 约9.21千字
- 约 8页
- 2016-11-27 发布于重庆
- 举报
基于二元根詞相关性的三字格词语知识挖掘研究-盛玉麒
基于二元根词相关性的
汉语三字格词语知识挖掘研究*
山东大学 盛玉麒
(*本文得到国家社科基金项目“基于语料库的汉语根词相关性句法模型研究”的经费资助)
一、词相关性
1.相关性理论
“相关性”通常指随机事件之间的关系。在数理语言学领域常指两个语言单位的关系程度。可以是字与字之间的相关性、也可以是词与词、短语与短语、句子与句子之间的关系。
在计算语言学中,常用“共现”一词表示两个成分共同出现在一个语句中。相比之下,“共现”只是强调同时出现,而“相关性”则明确度表达了“关系的程度”。统计学有“相关分析”法,专门研究随机变量之间的相关性,包括偏相关、复相关、定序变量相关等不同类型相关性的统计分析。
本文所谈“二元相关性”是指任意两个词之间的关系程度。可以把这种关系想象成词的矩阵,纵横分别按照自然数列排列全部词,两两组合的节点数就是相关性组合的理论数值。
假设有10000个词,那么,相关性组合的理论数值就是10000*10000=1亿个。但是实际应用中绝不会有那么多。因为许多词之间由于句法功能的差异以及应用分布的关系,包括合理组合与非合理组合。例如下面的例子:
李嘉诚称,“事实上,中国人有好人,也都有差的;外国亦都有好有差,国籍没有特别的关系。”
没有分词的情况下,可根据标点符号分隔的两个相邻单位之间就存在相关性,
“事实上,中国人有好人”、“ 中国人有好人,也都有差的;”等等。
分词标
您可能关注的文档
最近下载
- Unit 7 A Good Read课时4 Section B 1a-1e(教学评教学设计)英语新教材人教版八年级下册.docx
- 欧洲规范-NF P94-093-中文版.pdf VIP
- 医院检验科网络应急预案.docx VIP
- 环境监测采样培训课件.pptx VIP
- 操作系统期末复习题及答案.docx VIP
- 环境监测采样前的准备及水样类型80课件.pptx VIP
- 安全生产费用监理实施细则.docx
- 《变幻的空间》 课件 2026浙美版美术八年级下册.ppt
- (2025年)环境监测现场采样人员转正考核试题附答案(水和废水采样).docx VIP
- 环境监测现场采样人员综合测试题(含答案).docx VIP
原创力文档

文档评论(0)