(2004——2008)计算语言学与中文信息处理研究近年来的发.PDFVIP

(2004——2008)计算语言学与中文信息处理研究近年来的发.PDF

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(2004——2008)计算语言学与中文信息处理研究近年来的发

计算语言学与中文信息处理研究近年来的发展综述 (2004——2008 ) 詹卫东 北京大学中文系 北京大学计算语言学教育部重点实验室 1 引言 一般来说,年鉴的内容中不少属于“记账式”的,即把近些年本领域出版的有影响的文 献,发生过的重要事件等分类罗列。这种方式对于比较传统的、相对成熟的学科,不失为一 种稳妥的做法。但对于新兴的交叉边缘学科,以这种方式完成的年鉴可能有一定的局限。因 为多数读者往往是从自己所在的学科背景出发来了解交叉学科中的研究状况,如果仅仅罗列 事实,而不对事实背后的学术理路加以分析和评论,可能难以帮助读者真正全面地认识一个 新兴的交叉学科中已经完成的研究工作的价值,因而也难以把握该学科未来的发展方向。如 果真是这样的话,也就达不到为一个学科整理出版年鉴的目的了。 计算语言学与中文信息处理,正是这样一个涉及到计算机科学、语言学、文字学、数学、 1 逻辑、认知科学等多个学科的交叉研究领域 。本文打算在整理近年来该领域中的重要事实 的同时,对研究工作中表现出的宏观上的突出特点加以分析和评论,希望由此可以对该领域 未来的学术发展方向有更为清晰的认识。这样,有可能帮助不同学科背景(尤其是语言学背 景)的研究人员参与这一交叉学科的探索时更好地进行研究工作的定位。 基于上述的指导思想。下文将分为四节来综述 2004——2008 年这一领域的研究状况。 第二节是概貌性的描述。先从不同角度勾勒对计算语言学与中文信息处理这一领域的宏观认 识,为之后的内容阐述提供一个合适的逻辑框架。然后对这五年本领域的大环境做概要的描 述(以一些重要学术活动为主)。第三节是从信息处理的不同对象和不同层级的角度,说明 这一领域在 2004——2008 年取得的技术层面的进展。第四节则是从学术内在的发展理路, 特别是研究方法的角度,对这一学科近年来的发展特点加以分析和评论。第五节是结语。简 要回顾这一领域的发展历史,并对未来的发展趋势提出我们的看法。以上第二、三节侧重对 客观事实的描述,第四节侧重主观评论。希望本文这种“客观与主观兼顾,务实和务虚并重” 的安排,对跨学科背景的读者,更主要的是语言学背景的读者,能有一定的参考价值。 2 概貌:从整体和外部环境角度看计算语言学与中文信息处理 2.1 对计算语言学与中文信息处理的整体格局的认识 为了更好地概括说明计算语言学与中文信息处理这一领域近年来的理论研究以及应用 状况,本文首先为这一领域勾勒一个相对全面的框架(表 1 和图 1)。然后再针对这个框架 中一些更值得重点关注的部分展开来加以分析和讨论。 1 根据中国国家标准《学科分类与代码表》(GB/T13745—1992),一级学科“语言学”下的二级学科“应 用语言学”里包含有三级学科“计算语言学”(740.3550 )。一级学科“计算机科学技术”下的二级学科 “人工智能”里包含有三级学科“自然语言处理”(520.2020 )和“机器翻译”(520.2030 )。从学术界的 实际生态情况来看,人们一般不大去区分“计算语言学”“自然语言处理”“机器翻译”“中文信息处理” 等不同名称所指的研究范围。使用不同的名称,往往被看作是对同一个对象的不同侧面的强调。本文也 采取这种宽泛的方式。 表 1:根据符号性质的差异对中文信息处理的对象进行分类 对象 书面文本 口语语音 任务 [视觉符号] [听觉符号] 对象

您可能关注的文档

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档