中文词义归纳研究.pdf

中文词义归纳研究

第1章绪论 时,目标多义词的共现特征作为节点,特征之间的共现性度量边权值,节点的歧 义性是关键,因此共现词语、搭配【11、搭配和共现词语相结合【13】、三元组【14】、多 元组、超边【15】等均用来构造节点以降低节点的歧义性。当基于相似度矩阵时, [171等人分别对其进行了研究,并取得了较好的结果。常用的图聚类算法包括 Chinese MinCut、谱聚类、Markov Whisper(CW)/18】、Normalised Clustering(简称 Random MCL)[41、HierarchicalGraphs[19】等,其中CW使用的最多,性能也较优。 (3)其他方法。随着机器学习方法在自然处理领域的流行,基于统计模型 的方法在词义归纳的研究中也越来越深入。Brody等人首次将贝叶斯方法运用到 词义归纳中,取得了较好的成绩。但是该系统需要词义个数作为先验,Yao等人 [201在Brody基础上提出了无参数的贝叶斯模型,使用分层狄利克雷过程(the HierarchicalDirichlet 语料的词义归纳进行了研究,将其放在机器翻译的背景下。 1.2.2国内研究现状 相对于国外语言,特别是英语,中文的词义归纳研究起步比较晚,相关工作 也比较少,它是近几年才发展起来的。中文有自己的特点,譬如,中文词义归纳 发展较晚,语料规模较小,而国外由于发展较早语料规模较大,因此适用于英文 词义归纳的方法并不一定适用于中文。由于这些独有的特性使得中文自然语言处 理面临挑战和机遇。 Information of SIGHAN的赞 在CIPS(ChineseProcessingSocietyChina)and 助下, 办有效地促进了中文词义归纳的发展,并为其提供了公共的平台,从而更好地带 动了中文词义归纳的研究和探索。 在中文词义归纳研究中,使用最多的是基于特征向量的方法。在特征选择中, 主要使用单个汉字、共现词语、N.gram、词性等作为特征,并对其进行组合。 在聚类算法中,涉及到了K.means、层次聚类、ExpectationMaximization(简称 EM)、Locally Adaptive 较好,层次聚类获得的簇较为不均衡。Zhang等人【3】使用单个汉字、词语、二元 Maximization(简称EM)、LocallyAdaptive 第1章绪论 归纳,同时对各个结果进行组合,该系统在CLP2010的词义归纳评估中获得了 较好的结果,F.score值位列第一。Liut23】对每个实例中目标词前后两个窗口内的 词语进行两两组合,与目标词相结合构成三元组。每个三元组利用搜索引擎来获 取共现词语,从而构建特征向量空间。 在中文词义归纳中,基于图的方法使用较少,主要是谱聚类、Chinese Wispher (简称CW)算法。Xu等人【24】使用除停用词外所有的词语构建特征向量,基于 该特征空间构造相似度矩阵,并使用谱聚类、k.means、层次聚类进行词义归纳, 节点,实例之间的相似度作为边权值,使用CW算法进行词义归纳,但是由于 评估中使用到的语料较小不能反应实例间的固有关系,并且也不能利用簇数信 息,因此该系统结果较差。 综上所述,国内有关词义归纳的研究取得了初步的成果,词义归纳研究的重 要性也越来越突出。然而,在国内由于没有大规模的语料,无法体现基于图的优 越性,因此词义研究的进展缓慢,较多地停留在基于特征向量的方法上。但是中 文词义归纳的应用前景是非常广阔的,因此,我们需要对其进行深入的探索与研 究。 1.3本文研究内容 在国外的词义归纳研究中,除了使用传统的基于特征向量的方法,基于图的 方法、基于统计的方法也得到了广泛的应用并取得了较好的结果。而在国内的词 义归纳研究中,由于研究起步较晚,相关工作比较少,拥有的语料也比较有限, 主要使用传统的基于特征向量的方法。因此,在借鉴国外研究成果的基础上,提 出中文词义归纳研究的主要内容,包括如下几个部分: (1)基于特征向量的中文词义归纳

文档评论(0)

1亿VIP精品文档

相关文档