- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
名人演讲稿北京大学教授俞士汶:语义与搜索引擎
名人演讲稿北京大学教授俞士汶:语义与搜索引擎
各位来宾,大家下午好!我今天发言的题目是隐喻与词义的计算研究,及其在搜索引擎当中的潜伏利用。内容有这么几点,首先看一下搜索引擎的现在情况,这个今天上午和刚才的报告都讲了,讲了搜索引擎跟自然语言的处理的关系。下面隐喻计算研究,词义自动消歧,和词义研究是主题部份,然后提一下自然语言处理的关系,最后发表一点感想。
现在大家都有一个习惯,有事情就百度一下。我自己也有收获,大夫给我注射灯盏花注射液,我不知道灯盏花注射液是甚么,百度了一下,收到了吹糠见米的效果。但是现在的搜索引擎也还不能尽如人意,比方说有人问“鸡肋”是甚么?给出了这样的答案,这样的老公不是鸡肋是甚么。这样的回答似是而非,似非而是,叫人哭不得笑不得。
那末我们现在的搜索对象就是网页上的文字,网页的文字都是书面语言,书面语言是承载信息、知识和文化的,我们要搜索的实际上是它的内容,实在不是这个文字的本身。现在搜索引擎的关键技术就是把网页用索引表达出来,然后查询的时候就把查询的关键词组合起来,看家本领就是字符串匹配。固然,我们自然语言处理技术跟基础技术,比方说汉语的切分,另外在一起出现的词的贡献,这样的也用到,但是主要的都是字符串的匹配。
发展方向,今天上午的董事长跟刚才的几位技术主管都讲到了,就是要理解,要语义的理解,要行为理解,这样的话他就需要把内容进行索引,用户的意图进行理解。在这类情况下,我以为自然语言处理技术,特别是自然语言理解技术就有了用武之地。在这之前,固然也有不同的见解,比如有人以为自然语言技术在检索当中起不了多大的作用,投进很多,收效实在不大。但是今天上午听了百度的几位先生的报告以后,倒增强了这方面的信心,感觉到处都看到他们对自然语言处理、理解这方面的技术加进和[ 北京大学教授俞士汶:语义与搜索引擎资:料;来/源,于FWJIA;网 http://fwjia.COm }熟悉这个需求的增长。
我给出一个需求,查找“唐代描写战乱中牵挂亲人的诗作”,比如我打这样的需求进往,我试了一下,没有给出答案,可是我自己头脑里很轻易想到这样的一些诗句:“打起黄莺倪,莫叫枝上啼”等,我想大家都能想得起来,但是互联网还实现不了。
要实现这些内容的索引,和实现对用户意图的理解,需要计算机俱备理解自然语言的能力,这是非常困难的。主要的缘由是自然语言表达的意义、内容跟自然语言表达的情势之间存在及其复杂的多对多的关系。比方说“妻子”,可以说“妻子”,也能够说“夫人”,那诗里面啼时惊妾梦,妻也能够叫妾。这样的话,当我们利用的时候,在特定的环境下面,把复杂的多对多的关系,给确定下来,所以我们就要下很大的立起来消减自然语言的歧义。
自然语言分析要做的工作很多,比如“这样的老公不是鸡肋是甚么”。表示的是这样的老公是鸡肋,但是“这样的老公怎样能说是鸡肋呢?”这句话的表示实际上表示的是这样的老公不是鸡肋。比如蛐蛐不是蝈蝈,那末丁是丁卯是卯,又不对了,这都是自然语言要理解的东西,但是这些东西太复杂,但是目前我们要的是词义消歧,可能最有用。“老公是鸡肋”,跟“老公不是鸡肋”都是隐喻的表达方法,假如计算机有隐喻的能力的话,那末对搜索还是很有价值的,我们下面集中讲一下隐喻的计算研究。
甚么是隐喻?隐喻计算研究有哪些任务?用甚么方法进行研究?举一个具体的实例,还有在搜索当中潜伏的利用,和这样做能不能做得到。
隐喻在我们语言的各个层次上面都有,比如说“老公是鸡肋”就是隐喻。乃至我们讲的搜索引擎这个本来就是一个隐喻。由于引擎是发动机,汽车里面、飞机上面有,我们网络搜索怎样有引擎呢?这实际上是一个隐喻。隐喻在人类语言表达当中离不开,那末我们的搜索当中固然也离不开。搜索计算研究的任务主要是三个,一个是辨认,一个是理解,一个是天生,天生我们暂时多是Web2、Web3将来的工作。那末我们现在主要是搜索的话,那就是辨认跟理解。由于知识的海洋,我们要知道他的隐喻,“老公是鸡肋”,要知道他是隐喻,这样对搜索就很有价值。
那末方法没法是两种方法,由于自然语言处理只有两个“拳头”,一个是基于微机的方法,一个是统计的方法。微机的方法很好理解,比如“这个人是一个狮子”,我们不知道是甚么意思,“这个人是一个狐狸”,也不知道是甚么意思,“那是老公”,也不知道是甚么意思。但是我们说“那个人像狮子一样英勇”“狐狸真狡猾”,这类我们就知道了,说这个人是狮子说明他英勇,说他是狐狸说他是狡猾,那末这样的话,通过大量的喻体,来隐喻了。
另外统计的方法,提供大量的正面的例子,反面的例子,学习一个分类器,通过这个分类器来把这个区别开来。
我们的博士生2006年完成了一个博士生论文,叫汉语隐喻短语的辨认研究。主要是像把知识的海洋,文献的海洋,这类隐喻的表达,跟国家的海
您可能关注的文档
最近下载
- 售后服务体系、流程及售后保障措施.docx VIP
- 北师版初中心理健康七年级全一册第一课翻开新的一页开启新学期课.pptx VIP
- 注塑生产排程月计划(ASDJS)自动排程.xls VIP
- QCT484-1999 汽车油漆涂层.pdf VIP
- 《影视后期合成》教案全套项目1--11 初识After Effects--渲染输出.docx VIP
- SAP物料分类账操作详解(S4系统).doc VIP
- 人教版小学数学四年级上册第六单元《用五入法试商的除法》PPT课件.pptx VIP
- 云南硅pu篮球场施工方案.docx VIP
- 学生牛奶糕点配送项目供货保障措施方案.docx VIP
- 课件中国现代文学史下.pptx VIP
文档评论(0)