中文词义归纳研究
第1章绪论
时,目标多义词的共现特征作为节点,特征之间的共现性度量边权值,节点的歧
义性是关键,因此共现词语、搭配【11、搭配和共现词语相结合【13】、三元组【14】、多
元组、超边【15】等均用来构造节点以降低节点的歧义性。当基于相似度矩阵时,
[171等人分别对其进行了研究,并取得了较好的结果。常用的图聚类算法包括
Chinese MinCut、谱聚类、Markov
Whisper(CW)/18】、Normalised Clustering(简称
Random
MCL)[41、HierarchicalGraphs[19】等,其中CW使用的最多,性能也较优。
(3)其他方法。随着机器学习方法在自然处理领域的流行,基于统计模型
的方法在词义归纳的研究中也越来越深入。Brody等人首次将贝叶斯方法运用到
词义归纳中,取得了较好的成绩。但是该系统需要词义个数作为先验,Yao等人
[201在Brody基础上提出了无参数的贝叶斯模型,使用分层狄利克雷过程(the
HierarchicalDirichlet
语料的词义归纳进行了研究,将其放在机器翻译的背景下。
1.2.2国内研究现状
相对于国外语言,特别是英语,中文的词义归纳研究起步比较晚,相关工作
也比较少,它是近几年才发展起来的。中文有自己的特点,譬如,中文词义归纳
发展较晚,语料规模较小,而国外由于发展较早语料规模较大,因此适用于英文
词义归纳的方法并不一定适用于中文。由于这些独有的特性使得中文自然语言处
理面临挑战和机遇。
Information of SIGHAN的赞
在CIPS(ChineseProcessingSocietyChina)and
助下,
办有效地促进了中文词义归纳的发展,并为其提供了公共的平台,从而更好地带
动了中文词义归纳的研究和探索。
在中文词义归纳研究中,使用最多的是基于特征向量的方法。在特征选择中,
主要使用单个汉字、共现词语、N.gram、词性等作为特征,并对其进行组合。
在聚类算法中,涉及到了K.means、层次聚类、ExpectationMaximization(简称
EM)、Locally
Adaptive
较好,层次聚类获得的簇较为不均衡。Zhang等人【3】使用单个汉字、词语、二元
Maximization(简称EM)、LocallyAdaptive
第1章绪论
归纳,同时对各个结果进行组合,该系统在CLP2010的词义归纳评估中获得了
较好的结果,F.score值位列第一。Liut23】对每个实例中目标词前后两个窗口内的
词语进行两两组合,与目标词相结合构成三元组。每个三元组利用搜索引擎来获
取共现词语,从而构建特征向量空间。
在中文词义归纳中,基于图的方法使用较少,主要是谱聚类、Chinese
Wispher
(简称CW)算法。Xu等人【24】使用除停用词外所有的词语构建特征向量,基于
该特征空间构造相似度矩阵,并使用谱聚类、k.means、层次聚类进行词义归纳,
节点,实例之间的相似度作为边权值,使用CW算法进行词义归纳,但是由于
评估中使用到的语料较小不能反应实例间的固有关系,并且也不能利用簇数信
息,因此该系统结果较差。
综上所述,国内有关词义归纳的研究取得了初步的成果,词义归纳研究的重
要性也越来越突出。然而,在国内由于没有大规模的语料,无法体现基于图的优
越性,因此词义研究的进展缓慢,较多地停留在基于特征向量的方法上。但是中
文词义归纳的应用前景是非常广阔的,因此,我们需要对其进行深入的探索与研
究。
1.3本文研究内容
在国外的词义归纳研究中,除了使用传统的基于特征向量的方法,基于图的
方法、基于统计的方法也得到了广泛的应用并取得了较好的结果。而在国内的词
义归纳研究中,由于研究起步较晚,相关工作比较少,拥有的语料也比较有限,
主要使用传统的基于特征向量的方法。因此,在借鉴国外研究成果的基础上,提
出中文词义归纳研究的主要内容,包括如下几个部分:
(1)基于特征向量的中文词义归纳
您可能关注的文档
最近下载
- 【数 学】2025-2026学年北师大版数学七年级上册期末测试卷.docx VIP
- 备战2026年高考化学三年(2023-2025)真题汇编(通用版)专题07电化学及其应用(解析版).docx
- 2023中国ESG发展白皮书.pdf VIP
- 2025年高考化学真题分类汇编专题12 有机化学基础(解析版).docx
- 3 天窗(教学课件).ppt VIP
- 2023年医疗招聘中医类-针灸推拿考试历年真题拔高带答案.docx VIP
- 安宁疗护患者生活质量、初次疼痛、埃德蒙顿症状、缓和日常体能评估量表.pdf VIP
- 课堂教学师生言语行为互动的研究.pdf VIP
- 施工现场雨水收集利用系统技术研究与应用.doc VIP
- 施工现场雨水收集利用系统应用完整版.pdf VIP
原创力文档

文档评论(0)