连词结构短语识别研究.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
连词结构短语识别研究 1 连词结构部分 连词是一个虚拟的词,具有连接功能,可以连接单词、短语、句子、句子乃至句子。它可以显示同时、选择、中断、渐进、目的、因果和其他关系。能够连接词语、短语的连词,例如,“和、与、并、及、或、而、甚至、以、以至”等;连接小句、句子的连词,例如,“不但、虽然、如果、与其、然而”等;连接句群的连词,例如,“再次、总之、由此可见”等。连词结构短语指的是连接词语、短语的连词所连接的包含连词在内的短语,即含有连词的有标记联合短语。根据表示关系的不同可以细分成不同的连词结构短语,例如,由“和、与、并、及”构成并列的连词结构短语,由“或”构成选择的连词结构短语,由“而”构成转折或补充的连词结构短语等。本文用一对“CP_xx”和“/CP_xx”来标记连词结构短语,其中“xx”表示连词结构的关系类别,如下面例句所示,其中“bl、xz、bc”分别是并列、选择、补充等关系的汉语拼音缩写。 (1) CP_bl改革、发展和稳定/CP_bl的任务十分繁重。 (2) 消费者愿意为CP_xz新型产品或现有产品的改进型/CP_xz支付更高的价钱。 (3) 大家的心情CP_bc激动而又新奇/CP_bc。 连词结构短语的识别有助于提高机器翻译的质量。如下面是美国斯坦福国际咨询研究所(SRI)中提供的句子汉英翻译结果。 (4) 当天,CP_bl长崎市民团体和原子弹爆炸受害者/CP_bl等约70人在长崎和平公园静坐。 译文: On the same day, victims of the atomic bombings of nagasaki civic groups and about 70 people, including the peace park in nagasaki meditation. (5) 如果CP_xz狗换了主人或主人地址变更/CP_xz,要及时更新登记信息 。 译文: If a dog in the address of the owner or master of change, and to update information in a timely manner. 如果能正确识别汉语句子中的连词结构短语,那么在翻译时首先可以确保这个短语不会翻译错,也不会把短语的成分和句子的其他成分混淆。因此,连词结构短语的识别具有重要意义。 2 连词结构部分的识别方法 周强通过计算词语的相似度来寻找联合结构形成的最优路径,主要是利用从树库中得到的数据,构造统计模型,进行短语自动界定处理,并根据错误事例和语言学知识形成调整规则来降低自动界定的错误率。孙宏林根据联合成分之间的对称性对连词左右两边的词串进行概率评分,选择一个概率最大的组合从而进行识别。吴云芳从语言学角度研究并列结构的特点,根据中心语相似和结构平行识别有标记并列结构,通过辨别同类词连用形成的歧义格式识别无标记并列结构。王东波等采用条件随机场模型,并结合语言学特征识别有标记的联合结构。 本文在王东波的基础上,结合虚词用法知识库中连词的用法来识别连词结构短语。首先根据连词的用法对每个可以连接词语、短语的连词编写若干条规则,实现基于规则的连词结构短语识别。然后将连词用法作为特征,采用条件随机场模型实现基于统计的连词结构短语识别,进而分析了不同长度的连词结构短语识别情况,并与未加入连词用法特征的方法进行了比较。 3 基于规则的连词结构的句子识别 3.1 连词结构有规范表达的连词语法 在连词用法词典和连词用法规则的基础上,对各个连词的用法进行了考察,找到每个用法所对应的连词结构短语的形式化表示或边界,然后抽取其中具有可操作性的判断条件特征,以有序的BNF范式描述连词结构短语的识别规则。因为连词结构短语涉及到左右两个边界,所以目前抽取的主要识别特征有: 左搭配M、左紧邻L、右紧邻R、右搭配N。另外在规则库中引入了其他一些符号,如A表示同词性同词,B表示同词性不同词。识别规则的一般描述形式为: ID→[M][L][R][N] M→词语1|词语2|…|n|v|a|… L →词语1|词语2|…|n|v|a|… R →词语1|词语2|…|n|v|a|… N →词语1|词语2|…|n|v|a|… 其中,规则元语言中的符号“→”表示定义为,符号“|”表示多选一,规则右部顺序出现的字符表示其所代表的特征属性为有序合取关系。规则中的符号 ID 为连词用法编码,“词语”表示该属性位置上出现的词语,“n、v、a”等表示该属性位置上出现的词性。连词结构短语识别规则的描述形式类似于连词用法规则的描述形式,不同的是连词结构短语识别规则中没有用到句首F和句末E这两个特征,并且ID后的定义不是这个用法的定义,而是这个用法所对应的连词结构短语的定义。连词用法词典和连词用法规则的详细说明可以参考文献。

文档评论(0)

xlwkyc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档