- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语言结构、机器学习与计算机语义
——尝试实现一个面向儿童的问答系统
摘要:
在机器学习和大数据的背景下,如果能够找到自然语言的内在结构,那么计算机通过学习就可以获得语义知识,从而理解、处理自然语言。而从认知论上,可以找到语言的内在的结构:语言表示了粒子在时空中的运动,并且按照概念判断推理逐步关系起来。这样,我们可以把自然语言看作一层,使用深层的DL语言来解释字词,并根据DL层的连接来判断字词如何组合出短语句子,从而得出语言的结构。然后,有了结构,就可以进行机器学习(记录语义);有了学习的知识,就可以进行推理运算。
基本的流程。1,对于字词。人工编辑他们的基元结构,从而形成从基本概念生成复杂概念的字词系统。2,对于短语和句子。机器自动地根据字词的基元结构判断其中的连接关系与句法结构,并且记录这些关系作为知识。3。对于问题的求解,先处理问题的语义,机器自动地顺着知识关系进行检索与计算,得出问题的答案。另外,因为有基元结构是多维的,所以使用向量的方式来表示:字词的基元结构通过向量来表示相互关系,短语句子通过向量来检索建立连接关系,推理的时候也顺着向量的关系来检索答案。
具体的工程目标。这个工作需要编辑字词库与句子规则,需要学习语料,需要编辑推理规则,这些都要花细致的工夫。所以先做一个小规模的儿童所理解的语言,这是自然语言的子集,大概5000字词,比较容易实现。得出的目标是希望在加上语音模块之后,可以与儿童进行简单的对话。这样应用到玩具中,让玩具真正具有智能,再加上一些学习视频资料以及触摸屏交互,对儿童玩具市场很有吸引力。当然,计算机语义的更大目标,还是希望加工常用的10万汉语字词,从而实现通用的计算机语义处理。
-----------------------------------分割线,下面细致的情况有兴趣的话可以看下去------------------
理论基础
这种语言内在结构的理论基础,主要是康德的认识论。语言是人的特殊活动,所以计算机处理语义要理解语言的结构,就要从人的认识出发。康德从时空表象开始,按照内在的结构描述了概念、判断、推理的过程。那么,虽然自然语言是多种变化的,但他们之所以有意义,就是因为他们符合时空粒子运动的内在生成与连接的过程。也就是说,康德的理性框架能够为自然语言提供一个结构。当然,结构还只是空白,但机器可以按照结构来学习大量语料,从而获得知识。然后,可以根据输入的问题,顺着知识关系来进行推理。所以,语言结构加大数据学习,是这个方案的根本。
与其他语义方案的不同,也在于处理了语言的内在结构以及可以进行机器学习。处理语义大致有两种方法,一种是本体工程,像框架语义学、语义网等,一种是Hownet的义原法。本体工程不使用深层结构,通过字词的相互关系来描述语义,但机器无法自动识别学习相互关系,需要手工编辑,几乎很难完成这个工作量。Hownet的义原虽然有深层结构的生成性,但过于简单,没有相互连接的规则,也无法自动识别连接,所以机器识别学习这一环也没法做到。所以,这种方案主要就在于使用字词的基元结构来标注字词连接的关系,从而可以进行机器识别和学习,然后根据学习到的知识进行推理加工。
四个部分的处理
下面分四个部分来说:字词、短语、句子、推理。
第一,把字词的语义解释成时空中的节点。1,分名词、动词、形容词等类,名词使用序列、生成、组合/运动、力量/形状、时间、集合这八个基元来解释;动词使用主事、受事、动作描述、凭借、环境五个论元来解释,形容词使用主词、序列形式、形容描述三个论元来解释。这三种中名词是根本,动词形容词都基于名词来展开。2,名词的序列、生成、组合描述了这个名词是如何生成的,这样就把所有名词分层成一个树形结构,底层的名词生成了高层的名词。这与Hownet的结构类似,只是每个名词都要表示出这八个基元,从而为连接与推理提供判断依据。3,具体的编辑,可以把《现代汉语词典》的标准释义作为名词的组合内容、动词的动作描述、形容词的形容描述;可以从CCD中找到动词和形容词的论元;可以从Hownet中找到名词的序列、生成。所以需要做的编辑主要是名词的运动、力量、形状、时间、集合,而不是全新地编辑字词库,工作量就可以接受了。
第二,根据同源原则,字词连接成短语。1,在语言的内在结构中,几个字词能够组合成短语句子,是因为他们是同源的,从而按照某种关系组合起来。所以,寻找短语中字词的相同点,并且标注出是什么关系,就明白了短语的语义结构了。2,计算机处理可以倒着从关系入手:根据四种关系所涉及到的基元类别,查找两个字词可能的同源节点。判断关系有四类(短语和句子都是如此):质量、活动、关系、情态。质量是时空粒子的量化;活动是运动所表示的事件;关系是属性、因果、交互(每一种都可以细化为三种:序列属性范围、生成因果凭借、组合交互同位
您可能关注的文档
- 诚挚欢迎你的加入期待与你分享优质课程与丰富的资源!.doc
- 诚信感恩自强主题动总结6结晶.doc
- 诚信教育专题远程络培训考试题及答案(80分).doc
- 诚信--考试_主团课.ppt
- 话剧表演策划.doc
- 话题型微博语言特及其情感分析策略研究.ppt
- 详列各种方案的全部预期成本和全部预期效益,通过分析.ppt
- 语义对比研究.pdf
- 语文A版三年级语文乐园四.pptx
- 语文S版三年级上第16课赵州桥.ppt
- 福师《马克思主义基本原理概论》期末复习题.doc
- 郑州南阳新村街道社区工作者招聘考试真题.docx
- 2025年大学《氢能科学与工程-运氢技术》考试参考题库及答案解析.docx
- 2025年大学《实验动物学-实验动物微生物学与寄生虫学》考试备考题库及答案解析.docx
- 2025年大学《康复作业治疗-作业评估与治疗技术实训》考试参考题库及答案解析.docx
- 2025年-2026年多工序数控机床操作调整工职业技能考试题库(附答案) .pdf
- QYE2-SGFA-003路基排水及防护工程施工方案.doc
- 2025年大学《海外利益安全-海外利益安全概论》考试备考试题及答案解析.docx
- 2025年大学《跨境电子商务-跨境电商法律法规》考试参考题库及答案解析.docx
- 2025年工业废弃物处理服务合同协议.docx
原创力文档


文档评论(0)