搭配的统 计分析.docxVIP

  • 4
  • 0
  • 约5.93千字
  • 约 33页
  • 2020-06-20 发布于北京
  • 举报
最新整理资料 文档精选合集 搭配的统计分析 常宝宝 北京大学计算语言学研究所 chbb@p 什么是搭配(collocation)? A COLLO CAT ION is an expression consisting of two or more words that correspond to some conventional way of saying things. --- Manning, C.D.  Schutze, H., Foundations of Statistical Natural Language Processing, The MIT press, 1999, 151 Within the area of corpus linguistics, COLLO CAT ION is defined as a pair of words (the node and the collocate) which co-occur more often than would be expected by chance. ---  From  Wikipedia,  the  free  encyclopedia 搭配举例 形容词+名词 strong tea powerful computer strong comp uter (×) powerful tea (×) a stiff breeze a stiff wind (×) a strong breeze a strong wind 动词+名词 knock at the door knock on his door watch …… the TV see the film 词及其搭配词可能比邻出现,也可能中间间隔一些其他的词汇。 搭配构成的一般原则 有限组合性(non-compositionality) 搭配的意义一般不是其组成词汇意义的简单相加。 som eone has kicked the bucket --- some one has died white wine --- yellow wine 搭配在译成另外一种语言时,通常不能逐词翻译, 而应作为一个整体进行翻译。 blue film --- 黄色电影 (兰色电影) black tea --- 红茶 (黑茶) 完全不能由组成成分判断整体意义的搭配包括固定搭配(fixed collocation)和成语(idiom)等。 搭配构成的一般原则 有限替换性(non-substitutability) 搭配的组成词汇通常不能用意义相近的词汇替换。 white wine --- yellow wine strong tea --- powerful tea powerful computer --- strong computer 有限修饰性(Non-modifiability) 搭配的组成词汇通常不能再被其他的词汇修饰。 … has kicked the blue bucket …(×) 搭配的狭义理解和广义理解 广义上的搭配 指 语法上合法的词语序列 常用的搭配提取方法 统计方法 与 规则方法 常用的统计方法 基于频率的方法(frequency-based approach) 基于方差的方法(variance-based approach) 假设检验法(hypothesis testing) 互信息法 (mutual information) 频率法 如果两个词总在一起出现,则这两个词很可能构成一个搭配。 因此可以通过统计两个词(bigram)的共现频率的方法来发现并提取搭配。 由于虚词的影响,通常最高频的词语组合是虚词的组合。 (New York times newswire, Aug-Nov,1990) 可通过词类组合模式进行过滤, 剔除高频的虚词组合。 频率法 Justeson Katz 用于过滤 的词类组合模式 搭配窗口(collocational window) 词语及其搭配词未必比邻出现。例如: she knocked on his door (3) they knocked at the door (3) 100 women knocked on Donaldson’s door (5) a man knocked on the metal front door (5) 前述频率法不能直接应用,此时可以通过定义搭配窗口的方法进行解决,统计词语和窗口范围内的其他所有词的共现

文档评论(0)

1亿VIP精品文档

相关文档