自然语言理解-词典_图文.ppt

  1. 1、本文档共99页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然语言理解-词典_图文

HowNet动词示例 NO.=015492 W_C=打 G_C=V E_C=~毛衣,~毛裤,~双毛袜子,~草鞋,~一条围巾,~麻绳,~条辫子 W_E=knit G_E=V E_E= DEF=weave|辫编 救灾: DEF=rescue|救助,StateIni=unfortunate|不幸 扭亏为盈: DEF=alter|改变,StateIni=InDebt|亏损,StateFin=earn|赚 * HowNet动名语义关系描述 V event|事件 V1 static|静态 V2 act|行动 ActGeneral|泛动{agent,content} start|开始{agent,content} do|做{agent,content,manner} try|尝试{agent,content} endeavour|卖力{agent,content} VieFor|快干{agent,content} RashlyAct|蛮干{agent,content} venture|冒险{agent,content} …… * HowNet信息结构库 信息结构 餐馆:可以吃饭的场所 走私集团:一个从事犯罪活动的团体,特征是转移物品 句法分布式 餐馆: N1 + N2 走私集团:V + N 句法结构式 餐馆: N1 ..N2 走私集团: V ..N 信息结构模式 餐馆:{(物质,食物) [受事] --事件,行动,吃} --[处所] (组织/场所) 走私集团:(事件,行动) --[施事] (人/拟人) * HowNet信息结构库(续) 0分类号 SYN_S=N --N句法结构式 SEM_S=(万物) [领属物] --(万物) 信息结构模式 Query1: 什么? Answer1: N1 + N2Query2: 什么样的?Query Answer: 表示该信息结构模式传达的真正信息并由此可产生的问与答 Answer2: “有”N1 “的”N2 例子:花园-洋房,星-空,艳阳-天,草-原,草-地,沙-地,花-园, 林荫-道,林荫-路,林荫-大道,水翼-船,气垫-船, 功勋-演员,功勋-运动员,技术-人员,专业-技术人员, 专业-人才,专业-人员,技-师,技-工,技术-员,手艺-人, * HowNet的规模 HowNet双语知识库 中文词项53335 英文词项57392 中文词条65953 英文词条75356 总记录数116533 HowNet信息结构库 信息结构模式:271个 句法分布式:49个 句法结构式:58个 实例:11,000 词语总字数:中文60,000字 * 词语的相似度计算 对于两个汉语词语W1和W2,如果W1有n个义项(概念):S11,S12,……,S1n,W2有m个义项(概念):S21,S22,……,S2m,我们规定,W1和W2的相似度各个概 念的相似度之最大值,也就是说: 注:在实际的文本中最好先排岐。 * 义原的相似度计算 义原之间的语义距离: 其中p1和p2表示两个义原(primitive),d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。 具体词与义原的相似度一律处理为一个小常数(γ); 具体词和具体词的相似度,如果两个词相同,则为1,否则为0。 将任何义原(或具体词)与空值的相似度定义为一个小常数(δ); * 虚词概念的相似度计算 .由于虚词概念总是用“{句法义原}”或“{关系义原}”这两种方式进行描述,所以,虚词概念的相似度计算非常简单,只需要计算其对应的句法义原或关系义原之间的相似度即可。 * 实词概念的相似度计算(1) 基本原则: 整体相似要建立在部分相似的基础上。 把一个复杂的整体分解成部分,通过计算部分之间的相似度得到整体的相似度。 先在二者的各个部分之间建立一一对应关系(组合配对),分别计算各个组合配对的相似度; 整体相似度等于各个组合配对的相似度的加权评价; 古代的战场的两军对垒:兵对兵、将对将,捉对厮杀。 * 实词概念的相似度计算(2) 将实词概念的语义表达式分成四个部分: –第一独立义原描述式:Sim1(S1,S2); –其他独立义原描述式:Sim2(S1,S2); –关系义原描述式:Sim3(S1,S2) –符号义原描述式:Sim4(S1,S2) 实词概念整体相似度计算公式: β1+β2+β3+β4=1          β1≥β2≥β3≥β4 * 实词概念的相似度计算(3) 发现的问题:如果Sim1非常小,但Sim3或者Sim4比较大,将导致整体的相似度仍然比较大的不合理现象 改进的公式: 改进的意义:主要部分的相似度值对于次要部分的相似度值起到制约作用,也就是说,如果主要部分相似度比较低,那么次要部分的相似

文档评论(0)

aena45 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档