问句中并列结构的识别 哈尔滨工业大学深圳研究生院计算机科学与技术范士喜 对2008-04-11.pptVIP

问句中并列结构的识别 哈尔滨工业大学深圳研究生院计算机科学与技术范士喜 对2008-04-11.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
问句中并列结构的识别 哈尔滨工业大学深圳研究生院计算机科学与技术范士喜 对2008-04-11

问句中并列结构的识别 内容导航 问题---定义 问题---比例 问题---问句中的用法 内容导航 内容导航 * 哈尔滨工业大学深圳研究生院 计算机科学与技术 范士喜 2008-04-11 一、问题及相关研究 二、解决方法 三、试验结果 并列结构是语言信息处理中的难点,一般认为并列成分是相似的。通过计算并列成分的相似性来解决。 句子层面 短语层面 大约10.3% 的问句具有并列结构 大约 11.2%的句子具有并列结构 一,表达平行的语义关系: 例如:什么是股票和基金? 分解:什么是股票?什么是基金? 二,表达需要比较的项目: 例如:资本化与费用化有什么区别 得到比较项目:资本化,费用化。 三,表达项目之间的关系: 例如:股息政策和股票投资价值的关系 得到关系项目:股息政策,股票投资价值 相关研究 周强( 1996)和孙宏林( 2001)对汉语并列结构的研究, 都是基于“并列成分相似”这样的语言学假设, 在此前提下设计规则和算法。 汉语语言研究也认为并列成分是相似的: 吴竞存、梁伯枢(1992)指出, 词性相同、结构相同、语义类相同、音 节数相同的项并列是最理想、最严格的并列; 储泽祥等2002)认为并列短语的形成是以“语义亲近性”为基础的。 北京大学吴云芳(2003)对98年人民日报里面的并列结构进行标注。 句法分析: 一、问题及相关研究 二、解决方法 三、试验结果 解决方法--标注方法 例子: 财务/n/[ 成本/n 管理/vn 和/c 财务/n 管理/vn/] 的/u 区别/n 语料:共24,892问句,包含26,073 个并列结构。 包含806,890个汉字,文件大小3.67M 解决方法—语料 手动标注了800 句。 用最大熵模型训练,然后自动标注,手动检查。 最后形成预料规模如下: 语料:共24,892问句,包含26,073 个并列结构。 包含806,890个汉字,文件大小3.67M 解决方法—解决方案 二值分类问题 分类目标 y? 分类内容 x ? 例子:口岸/n/[ 和/c 保税区/ns/] 有/v 什么/r 区别/n 1+3 0 口岸和保税区有什么 1+2 0 口岸和保税区有 -1+1 1 口岸和保税区 structure y x 解决方法—特征提取 各特征的组合 组合特征 前项与后项包含的相同词性数 sameP:1 相同词性数 前项与后项包含的相同“字”数 sameW:1 相同单词数 待标记项目的词性序列 POSs:nvncn 词性序列特征 待标记项目的 后一个词的词性 posPOS:v 后一个单词词性 待标记项目的 前一个词的词性 prePOS:v 前一个单词词性 前项与后项的长度差 Diflen:3 长度差特征 词的位置信息 S: -11 结构特征 例子 特征名称 解决方法—特征向量 一:将所有的特征进行编号 二:对每一个并列结构,列出所有的候选 及相应的 三:对每一个候选 进行特征提取,并形成特征向量 四:将 对作为svm的输入进行训练。 解决方法—原始 数据 l s dl bp ap no sw sp 0 s-33 diflen2 sBPoss sAPosu No0 sSimWordsFeature6 sSimPosFeature5 0 s-32 diflen0 sBPoss sAPosv No0 sSimWordsFeature6 sSimPosFeature5 0 s-31 diflen2 sBPoss sAPosv No0 sSimWordsFeature6 sSimPosFeature4 0 s-23 diflen4 sBPosvn sAPosu No0 sSimWordsFeature6 sSimPosFeature3 0 s-22 diflen2 sBPosvn sAPosv No0 sSimWordsFeature6 sSimPosFeature3 0 s-21 diflen0 sBPosvn sAPosv No0 sSimWordsFeature6 sSimPosFeature3 0 s-13 diflen5 sBPosn sAPosu No0 sSimWordsFeature6 sS

您可能关注的文档

文档评论(0)

189****6649 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档