基于古汉语语料数据库词的划分方法研究与探索.pdfVIP

下载本文档

6
0
约9.96千字
约 3页
2015-07-28 发布于安徽
举报
版权申诉

基于古汉语语料数据库词的划分方法研究与探索.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

其中，P(z)、P(，)分别为汉字z，Y在语料库中出现3．2‘结合强度’的提出的概率；P(鲫)是汉字z，，在语料库中的邻接同现 ‘词’的直观意义常被解释为‘使用频繁，结合紧概率。需要说明的是，在原始的‘互信息’公式中，随密’。在考察唐诗语料时注意到这样的一个现象：如机变量z，，是无序的，而用于词汇提取时则必须考果两个字能构成一个词的话，这两个字在一句诗里虑其顺序关系。在具体应用时这个公式可以转化为同现时，一般会以紧密相邻的方式出现。对每一个以下形式：二字组求出其总的出现次数Ⅳ以及相邻出现次数 M。 l(xy)=ln黼 ^J 二字组的‘插入率’S=1一嚣其中，N为一个与语料库大小有关的常数，，(z)，f rr (，)则表示汉字z，，在语料库中出现的次数；f(zy) ^f 成词的‘结合强度’D=(嚣)2*ln(M) 表示汉字串xy在语料库中出现的次数。，r 互信息反映了汉字对间结合关系的紧密程度：统计分析表明，‘结合强度’的引入能有效地排 2 除那些结合松散的字组；而作为一个考察标准，在唐 (1)l(x y)?0，则p(x，y)?声(z)户(y)，此时宋诗语料库中，当字串的出现频度大于20且其结合。，Y之间具有可信的结合关系，并且I(x·y)值越大，结合程度越强；强度大于1时，在超过90％的概率的意义上可以确定该字串是一个词。当词频高于14时，如果以结合 (2)I(z。，)≈O，则p(z，y)≈声(z)p(y)，此时强度作为选词标准，得到的抽词效果远优于互信息 z，Y之问的结合关系不明确；统计的结果。由于这一标准与语料库大小基本上没 (3)I(x；y)==O，则p(x，y)=声(z)p(y)，此时有关系，语料库的规模越大，利用这一标准的效益就 z，Y之间基本没有结合关系，并且I(x：y)值越小，越高一些。结合程度越弱。在l(x；y)一。附近相当宽的区域内，结合能4未登录词统计划分的提取方法否实现仅依靠互信息有时难以裁定，必须参照一定以下为方法的要点：的上下文，通过上下文字对之间的比较进一步寻找第一，先用最大概率法进行第一次提取词，识别判据。直观地来讲，如果两个字在一起出现的频度巳登录的多字词；越高，这两个字组成的二字组是一个词的可能性就第二，在“分词碎片”中寻找未登录词：分词碎片越大。中任意字串皆为候选未登录词，利用局部统计和单在中文里，有许多字使用时都是在合成词中出字概率来计算其概率；但碎片中任意单字亦为候选