- 1、本文档共121页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据关键技术探讨与研究 网络爬虫和语义分析------大数据的重要组成模块 2.1组合理论 组合理论:整个句子意义是句子中每个部分的意义和部分与部分之间的组合方式的函数。 实际应用中,组合理论常常定义成一个严格的规则,即某一个字成分的意义必须是一个函数,这个函数能够把其他所有字成分的意义映射成新产生成分的意义。 优点:易于扩展和维护 存在的难题: (1)句法结构和逻辑形式结构之间存在结构上的不一致性 (2)习惯用语的存在 2.2 λ表达式与语义解释 λ表达式: 2.2 λ表达式与语义解释(续1) 为什么要引入λ演算? 复杂的一元谓词没有好的方法表达,而λ演算可以为此提供一种形式化方法 在语义解释的过程满足组合性的情况下,我们可以给任意的语法成分赋予某种语义结构,例如动词短语VP,先考虑简单的情况,VP由不及物动词构成,比如在句子中“Jack laughed”,可以这么认为,“laughed”的意义是一元谓词,对于任何在过去某个时间大笑的对象都成立。但是对于复杂的句子例如“Jack kissed Sue”及其逻辑形式(KISS1 k1 (NAME jl “Jack”)(NAME sl “Sue”)),动词短语“kissed Sue”是什么意思? 2.2 λ表达式与语义解释(续2) 用上面的方法来解释,“kissed Sue”是一个一元谓词,对于任何“kiss Sue”的对象都为真,这种解释明显是不够的,跟句子的逻辑形式也不符合。于是我们就引入了λ演算,它可以为此提供一种形式化的方法。下面的λ表达式 (λ x (KISS1 k1 x(NAME sl “Sue”)))可以表示是一个后面只跟一个变量的谓词。将x看成变量,对于任何对象O,此谓词都为真。因此,如果用O替换表达式中的x,就会得到一个真命题。和其他谓词一样,可以用一个λ表达式和一个参数来构造命题。在逻辑形式语言中,下面是一个命题: ((λ x (KISS1 k1 x (NAME s1“Sue”)))(NAME jl “Jack”)) 这个命题为真,当且仅当(NAME j1 “Jack”)满足谓词(λ x(KISS1 kl x(NAME s1 “Sue”)));而后者为真,当且仅当下式为真:(KISS1 kl (NAME jl “Jack”)(NAME s1 “Sue”))。这样,这个问题就解决了。 2.2 λ表达式与语义解释(续3) λ表达式应用于语义解释中的优点: (1)可以用来解释复杂的语法现象 (2)可以很好的解释名词短语的介词短语修饰成分 3.1 带语义解释的简单语法和辞典 3.1 带语义解释的简单语法和辞典(续1) 包含SEM特征的小词典示例: a (art AGR 3s SEM INDEF1) decide (v SEM DECIDES1 VFORM base SUBCAT_none) decide (v SEM DECIDES-ON1 VFORM base SUBCAT_pp:on) dog (n SEM DOG1 AGR 3s) fish (n SEM FISH1 AGR 3s) fish (n SEM(PLUR FISH1)AGR 3p) has (aux VFORM pres AGR 3s SUBCAT pastprt SEM PERF) in (p PFORM {LOC MOT} SEM IN-LOC1) Jill (name AGR 3s SEM “Jill”) man (n SEM MAN1 AGR 3s) men (n SEM (PLUR MAN1) AGR 3p) saw (v SEM SEES VFORM past SUBCAT_np AGR ?a) see (v SEM SEES1 VFORM base SUBCAT _np IRREG-PAST+EN-PASTPRT+) the (art SEM THE AGR{3s 3p}) 3.1 带语义解释的简单语法和辞典(续2) 带SEM特征的简单语法: S SEM (?semvp ?semnp) → (NP SEM ?semnp)(VP SEM ?semvp) (VP VAR ?v SEM (λ a2 (?semv ?v a2))) → (V[_none] SEM ?semv) (VP VAR ?v SEM (λ a3 (?semv ?v a3 ?semnp))) → (V[_np] SEM ?semv) (NP SEM ?semnp) (NP WH - VAR ?v SEM (PRO ?v ?sempro)) → (PRO SEM ?sempro) (NP VAR ?v SEM (NAME ?v ?semname)) →
您可能关注的文档
- 城市埋地PE管道的定位现状研究.docx
- 城市燃气工程重大危险源应急决策支持系统探讨.docx
- 城市燃气管道全生命周期完整性管理的探讨.docx
- 城市燃气管网工程建设技术管理制度汇编.doc
- 城市热电联产的能效评价与技术经济分析.docx
- 城市人行天桥与地下通道方案设计及比选.docx
- 城市三维地质调查数据库.docx
- 城市设计理论及其方法.ppt
- 城市社会公共停车场的选址理论与方法.ppt
- 城市社区管理中存在的问题与对策研究毕业论文.doc
- 2025年广西中考地理二轮复习:专题四+人地协调观+课件.pptx
- 2025年广西中考地理二轮复习:专题三+综合思维+课件.pptx
- 2025年中考地理一轮教材梳理:第4讲+天气与气候.pptx
- 第5讲+世界的居民课件+2025年中考地理一轮教材梳理(商务星球版).pptx
- 冀教版一年级上册数学精品教学课件 第1单元 熟悉的数与加减法 1.1.6 认识1-9 第6课时 合与分.ppt
- 2025年中考一轮道德与法治复习课件:坚持宪法至上.pptx
- 2025年河北省中考一轮道德与法治复习课件:崇尚法治精神.pptx
- 八年级下册第二单元+理解权利义务+课件-2025年吉林省中考道德与法治一轮复习.pptx
- 精品解析:湖南省娄底市2019-2020学年八年级(上)期中考试物理试题(原卷版).doc
- 2025年中考地理一轮教材梳理:第10讲+中国的疆域与人口.pptx
文档评论(0)