中文词义归纳研究.pdf

下载文档 降价啦

68
0
约6.57万字
约 54页
2018-08-19 发布于江苏
举报
保障服务

中文词义归纳研究.pdf

中文词义归纳研究

第1章绪论时，目标多义词的共现特征作为节点，特征之间的共现性度量边权值，节点的歧义性是关键，因此共现词语、搭配【11、搭配和共现词语相结合【13】、三元组【14】、多元组、超边【15】等均用来构造节点以降低节点的歧义性。当基于相似度矩阵时， [171等人分别对其进行了研究，并取得了较好的结果。常用的图聚类算法包括 Chinese MinCut、谱聚类、Markov Whisper(CW)／18】、Normalised Clustering(简称 Random MCL)[41、HierarchicalGraphs[19】等，其中CW使用的最多，性能也较优。 (3)其他方法。随着机器学习方法在自然处理领域的流行，基于统计模型的方法在词义归纳的研究中也越来越深入。Brody等人首次将贝叶斯方法运用到词义归纳中，取得了较好的成绩。但是该系统需要词义个数作为先验，Yao等人 [201在Brody基础上提出了无参数的贝叶斯模型，使用分层狄利克雷过程(the HierarchicalDirichlet 语料的词义归纳进行了研究，将其放在机器翻译的背景下。 1．2．2国内研究现状相对于国外语言，特别是英语，中文的词义归纳研究起步比较晚，相关工作也比较少，它是近几年才发展起来的。中文有自己的特点，譬如，中文词义归纳发展较晚，语料规模较小，而国外由于发展较早语料规模较大，因此适用于英文词义归纳的方法并不一定适用于中文。由于这些独有的特性使得中文自然语言处理面临挑战和机遇。 Information of SIGHAN的赞在CIPS(ChineseProcessingSocietyChina)and 助下，办有效地促进了中文词义归纳的发展，并为其提供了公共的平台，从而更好地带动了中文词义归纳的研究和探索。在中文词义归纳研究中，使用最多的是基于特征向量的方法。在特征选择中，主要使用单个汉字、共现词语、N．gram、词性等作为特征，并对其进行组合。在聚类算法中，涉及到了K．means、层次聚类、ExpectationMaximization(简称 EM)、Locally Adaptive 较好，层次聚类获得的簇较为不均衡。Zhang等人【3】使用单个汉字、词语、二元 Maximization(简称EM)、LocallyAdaptive 第1章绪论归纳，同时对各个结果进行组合，该系统在CLP2010的词义归纳评估中获得了较好的结果，F．score值位列第一。Liut23】对每个实例中目标词前后两个窗口内的词语进行两两组合，与目标词相结合构成三元组。每个三元组利用搜索引擎来获取共现词语，从而构建特征向量空间。在中文词义归纳中，基于图的方法使用较少，主要是谱聚类、Chinese Wispher (简称CW)算法。Xu等人【24】使用除停用词外所有的词语构建特征向量，基于该特征空间构造相似度矩阵，并使用谱聚类、k．means、层次聚类进行词义归纳，节点，实例之间的相似度作为边权值，使用CW算法进行词义归纳，但是由于评估中使用到的语料较小不能反应实例间的固有关系，并且也不能利用簇数信息，因此该系统结果较差。综上所述，国内有关词义归纳的研究取得了初步的成果，词义归纳研究的重要性也越来越突出。然而，在国内由于没有大规模的语料，无法体现基于图的优越性，因此词义研究的进展缓慢，较多地停留在基于特征向量的方法上。但是中文词义归纳的应用前景是非常广阔的，因此，我们需要对其进行深入的探索与研究。 1．3本文研究内容在国外的词义归纳研究中，除了使用传统的基于特征向量的方法，基于图的方法、基于统计的方法也得到了广泛的应用并取得了较好的结果。而在国内的词义归纳研究中，由于研究起步较晚，相关工作比较少，拥有的语料也比较有限，主要使用传统的基于特征向量的方法。因此，在借鉴国外研究成果的基础上，提出中文词义归纳研究的主要内容，包括如下几个部分： (1)基于特征向量的中文词义归纳

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中文词义归纳研究.pdf