- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语言信息处理与汉语知识研讨会,2010/5/29-30,北京语言大学
从语料库中挖掘知识
Mining Knowledge from Corpus
冯志伟
提要:本文主要介绍中国传媒大学依存树库研究团队从依存树库中获取语言学知识的一些工作,如,汉语名词语法功能的研究,20种语言中心词居前与中心词居后的分布研究,汉语复杂网络的研究。这些工作都是在汉语依存树库的基础上进行的。本文也简要地介绍了国外从语料库中获取非语言学知识的研究。
20世纪90年代以前,从事计算语言学系统开发的绝大多数学者,都把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。这样,就提出了大规模真实文本的自动处理问题。1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING90)为会前讲座确定的主题是:“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标。为了实现战略目标的转移,需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。所谓“理性主义”,就是指以生成语言学为基础的方法,所谓“经验主义”,就是指以大规模语料库的分析为基础的方法。从中可以看出当前计算语言学关注的焦点。当前语料库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。但是,要想使语料库名符其实地成为自然语言的知识库,就有必要首先对语料库中的语料进行自动标注,使之由“生语料”变成“熟语料”,以便于人们从中提取丰富的语言知识。可以看出,计算语言学现在正在面临着一场战略转移。这场战略转移的关键是知识的获取方式和方法:从依靠“内省”方式转向依靠“语料”的方式,从基于“规则”的方法转向基于“统计”的方法。
面对计算语言学的战略转移,我觉得,语言学在获取知识的方式方法也应当进行一场战略转移。
与计算语言学相似,传统语言学家获取语言知识的方法基本上是通过“内省”进行,由于自然语言现象充满了例外,治学严谨的学者们提出了“例不过十不立,反例不过十不破”的原则,这样的原则貌似严格,实际上却是片面的。在成千上万的语言数据中,只是靠十个例子或十个反例就来决定规则的取舍,难道真的能够保证万无一失吗?显然是不能保证的。因此,“例不过十不立,反例不过十不破”的原则只是一个貌似严格的原则,实际上是一个很不严格的原则。现在,是抛弃这个原则的时候了。
语料库是客观的、可靠的语言资源,语言学研究应当依靠这样的宝贵资源。语料库中包含着极为宝贵的语言知识,我们应当使用新的方法和工具来获取这些知识。当然,前辈语言学家数千年积累的语言知识(包括词典中的语言知识。语法书中的语言知识)也是宝贵的,但由于这些知识是通过这些语言学家们的“内省”或者“洞察力”发现的,难免带有之主观性和片面性,需要我们使用语料库来一一地加以审查。语言学的一切知识,都有必要放到语料库中来检验,决定其是正确的,还是片面的,还是错误的,甚至是荒谬的,从而决定其存在的必要性,决定其是继续存在,还是放弃其存在。我们可以预见,语言学研究战略转移的时代必将到来!一种新的基于语料库的研究方式必将代替传统的依靠“内省”的研究方式,“内省”的研究方式今后只能是基于语料库研究方式的补充,而决不能是语言学研究的主流。“从语料库挖掘知识”—这应当现代语言学的基本研究方法。自然语言处理中的战略转移,必将影响到传统的语言学,传统语言学战略转移的时刻或迟或早总会来临。
从语料库可以挖掘的知识,可以是语言学的知识,也可以是非语言学的其他有用的知识。
由于时间的限制,这里我们着重讲怎样从语料库挖掘语言学知识,最后,我们举一个例子说明怎样从语料库中挖掘非语言学知识。
一、从语料库中获取语言学知识
语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可
您可能关注的文档
最近下载
- 人教版2024-2025(上)小学四年级上册数学单元素养评估工具(第四、六单元)(含答案).docx VIP
- 机械原理课件孙恒.pptx VIP
- 医院药品追溯管理制度.docx VIP
- 商务酒店(宾馆)消防检查全套记录表.doc VIP
- 注塑产品常见外观缺陷培训教材.ppt VIP
- 陕西省建设工程工程量清单计价规则2009(附录A).pdf VIP
- 中国华能集团的燃烧前和燃烧后CO2捕集项目.pdf VIP
- 2025中国南方电网校园招聘(综合能力)复习题库及答案.docx VIP
- 气管异物阻塞的急救讲课教案.pdf VIP
- 【中国华能集团有限公司】二氧化碳捕集与利用技术研究及工程示范.pdf VIP
文档评论(0)