- 4
- 0
- 约5.93千字
- 约 33页
- 2020-06-20 发布于北京
- 举报
最新整理资料
文档精选合集
搭配的统计分析
常宝宝
北京大学计算语言学研究所
chbb@p
什么是搭配(collocation)?
A COLLO CAT ION
is an
expression
consisting
of two or
more
words
that
correspond to
some
conventional
way of
saying things.
---
Manning,
C.D.
Schutze,
H.,
Foundations of
Statistical
Natural
Language
Processing, The
MIT
press,
1999, 151
Within
the
area
of corpus
linguistics,
COLLO CAT ION is
defined
as a pair of
words
(the
node
and
the
collocate)
which
co-occur
more
often
than
would be
expected by
chance.
---
From
Wikipedia,
the
free
encyclopedia
搭配举例
形容词+名词
strong
tea
powerful
computer
strong
comp uter
(×) powerful
tea
(×)
a stiff
breeze
a stiff
wind
(×)
a strong
breeze
a strong
wind
动词+名词
knock
at the
door
knock on
his
door
watch
……
the TV
see
the
film
词及其搭配词可能比邻出现,也可能中间间隔一些其他的词汇。
搭配构成的一般原则
有限组合性(non-compositionality)
搭配的意义一般不是其组成词汇意义的简单相加。
som eone
has
kicked
the
bucket
--- some
one
has
died
white
wine
---
yellow
wine
搭配在译成另外一种语言时,通常不能逐词翻译, 而应作为一个整体进行翻译。
blue
film
---
黄色电影
(兰色电影)
black
tea
---
红茶 (黑茶)
完全不能由组成成分判断整体意义的搭配包括固定搭配(fixed collocation)和成语(idiom)等。
搭配构成的一般原则
有限替换性(non-substitutability)
搭配的组成词汇通常不能用意义相近的词汇替换。
white wine --- yellow wine
strong tea --- powerful tea
powerful computer --- strong computer
有限修饰性(Non-modifiability)
搭配的组成词汇通常不能再被其他的词汇修饰。
… has kicked the blue bucket …(×)
搭配的狭义理解和广义理解
广义上的搭配 指 语法上合法的词语序列
常用的搭配提取方法
统计方法 与 规则方法
常用的统计方法
基于频率的方法(frequency-based approach)
基于方差的方法(variance-based approach)
假设检验法(hypothesis testing)
互信息法
(mutual information)
频率法
如果两个词总在一起出现,则这两个词很可能构成一个搭配。
因此可以通过统计两个词(bigram)的共现频率的方法来发现并提取搭配。
由于虚词的影响,通常最高频的词语组合是虚词的组合。
(New York times newswire, Aug-Nov,1990)
可通过词类组合模式进行过滤, 剔除高频的虚词组合。
频率法
Justeson
Katz
用于过滤
的词类组合模式
搭配窗口(collocational window)
词语及其搭配词未必比邻出现。例如:
she
knocked on
his
door
(3)
they
knocked
at the
door
(3)
100
women
knocked
on Donaldson’s
door
(5)
a man
knocked
on the
metal
front
door
(5)
前述频率法不能直接应用,此时可以通过定义搭配窗口的方法进行解决,统计词语和窗口范围内的其他所有词的共现
原创力文档

文档评论(0)