基于分布表征语义提取和语义透明度自动评估实验.docVIP

下载本文档

20
0
约5.8千字
约 12页
2018-08-29 发布于福建
举报
版权申诉

基于分布表征语义提取和语义透明度自动评估实验.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于分布表征语义提取和语义透明度自动评估实验

基于分布表征语义提取和语义透明度自动评估实验　　摘要:本文在联结主义的理论“模型将词汇的语义知识用分布表征值来表示”的基础上,选择了一组汉语复合词进行语义抽取和计算分析,基于语义距离提出了一个自动评估语义透明度的计算方法。实验直观有效地展现了一组多义语素间的同义、近义和同型异义关系,并揭示了语义透明度在多义语素系统中本质上是对某一具体语素义的相对距离。　　关键词:语义表示语义提取语义聚类语义距离语义透明度　　　　一、引言　　传统的语义观将语义表示为层级关系的范畴节点,其词汇语义是符号表征;而联结主义理论则将语义知识看成是分布表征,词汇语义可以表示为分布表征的多维向量,语义间的差异表现为语义距离。一方面,一个词语在复杂的语言环境中所表现出来的各种词汇句法、语用语义,更适合使用分布表征来表示和自动提取,克服了范畴语义表征由于其人工归纳无法保证全面准确真实的缺陷。另一方面,在分布表征基础下的语义表示方法,也提供了对语义计算和处理的多样手段。本文使用的语义抽取模型原本用在模拟语言习得过程的研究中用来提取语义作为自组织特征映射(SOM)神经网络的语义输入部分。我们稍微调整训练方法和研究对象,在“语义差异为语义距离”的理论前提下,直接对提取的语义进行一系列的计算分析和假设。我们选取了一组复合词,提取语义之后利用聚类算法进行网图(map)表示,使用欧式距离公式直接计算每个词汇之间的语义距离,在此基础上提出了语义透明度自动评估的假设。这些有别于范畴语义的计算和处理方法还有一个很重要的特点就是适用于大规模真实文本的处理。　　二、模型介绍　　本文采用的语义抽取算法模型,是理士满大学认知实验室(Farkas,I Li,2001,2002)开发的自组织特征映射(SOM)神经网络模型中的语义分析模型WCD(a word co-occurrence detector)。该模型能较好地利用真实的语言材料,提取语义表征知识,在和儿童语言习得和双语模拟(Li Ping,2002、2004)的实验中均有较好的表现。其基本原理很简单:计算被考察的词语O与一组参考词语[i1,i2,…,iN ]的出现在其左Li=[li1,li2,…,liN ]和右Ri=[r1i,r2i,…,rNi ]的共现概率,将其值映射到多维数组O=[Pli1,Pli2,…,PliN,Pr1i,Pr2i,…,PrNi ]上,这个数组最终就表示该词语的语义值。　　模型主要有三个参数:一是模型所开的窗口数,如果为3,指我们所考察的词语在训练文本中的左边L和右边R各看三个词语,如果它们同时又是参考词语,则计算它们与考察词语的共现概率(其值由其位置远近加权调整)。参考词语我们以下简称为“背景词”,背景词的数量和内容是模型的第二个参数。第三个参数就是我们需要训练的词语,以下简称为被试词。背景词和被试词由我们在具体试验中给出,第一个参数我们默认使用3个窗口。　　三、试验准备　　训练语料:现代汉语语料(北京语言大学开发,已分好词)。　　被试词的确定以及预处理:首先对含有“花”的词语进行检索,语料中含有“花”的词语有上百个。在这些词语中确定被试词:花架子、花、花费、荷花、樱花、棉花、花生、花儿、花草、花园、雪花、桃花。接下来对语料中823处单独作词语使用的“花”进行标注,代表“花儿”意思的标上“花1”(共有330个),代表“花费”意思的标上“花2”(共有493个)。　　背景词的确定:从语料中统计词频得出的前500个高频词。　　四、试验结果的网图表示　　实验结果是每个词语的语义值表示为一千维的数组(向量),每个值在0～1.0范围之间。下面直接对数据进行计算分析。我们首先采取了多维尺度分析(Multidimensional Scaling,MDS),将1000维的数据降到2维的网图上,以观察被试词汇间的聚类关系。多维尺度分析的基本原理是将评价者对各种事物的相似程度,通过适当的降维方法,将这种相似或不相似距离程度在低维度空间中点与点之间的距离表示出来。其算法描述见参考文献[1]。　　图1:现代汉语语料语义聚类网图　　　　图2:图1虚框部分放大　　　　从聚类网图我们可以看出: 　　(一)“花 1”和“桃花、樱花、荷花”等聚在一起,而且内部还有一些细微的差异,“棉花”和“雪花”的距离比较远,“花儿”和“花草”的距离比较近。　　(二)“花架子”和“花1”“花2”的距离都很远。　　(三)“花2”和“花费”聚在一起,它们与其他的词语距离都很远。总的来说,语义接近的词语相距很近,语义差别大的词语相距很远,说明模型能够辨别同义、同形关系。最为明显的是“花1”和“花2”距离很远,说明模型能够将这两个意义绝然不同的“同形词”区别开。