现代汉语名词槽关系系统中横类型的研究和设计-COLIPS.doc

现代汉语名词槽关系系统中横类型的研究和设计-COLIPS.doc

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现代汉语名词槽关系系统中横类型的研究和设计-COLIPS.doc

PAGE  PAGE 3 高频最大交集型歧义切分字段在汉语自动分词中的作用*本文承国家社科“九五”重大项目《信息处理用现代汉语词汇研究》(批准号:97@YY001)和国家973重点基础研究发展规划项目(项目号G1998030507-2)的资助。 陈群秀 清华大学计算机科学与技术系 北京 100084 E-mail:  HYPERLINK mailto:cqd@ cqx@ 摘 要:交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。 关键词:中文信息处理,汉语自动分词,高频最大交集型歧义切分字段,基于记忆的排歧策略 The Role of High Frequent Maximal Crossing Ambiguities in Chinese Word Segmentation Chen Qunxiu Department of Computer Science and Technology, Tsinghua University, Beijing 100084 E-mail:  HYPERLINK mailto:cqx@ cqx@ Abstract: The solution of crossing ambiguities is still an open issue in the study of Chinese word segmentation. In this paper, we introduce the concept of maximal crossing ambiguity at first, divide it further into two major types, i.e., the true and the pseudo. The high frequent part of maximal crossing ambiguities is strong in coverage capacity and rather stable with regard to domain shifting. As a consequence, we propose a memory-based strategy that is expected to improve the performance of practical Chinese word segmenters significantly. Keywords: Chinese information processing, Chinese word segmentation, maximal crossing ambiguities with high frequency, memory based disambiguation strategy. 1 前言 信息化已成为二十一世纪全球不可抗拒的选择,成为国家经济与社会发展的命脉,成为一种新的控制财富的手段,这是来自用枪炮也无法阻挡的一种新的威胁与挑战,也是一种新的机遇。发展中的国家(包括中国在内)如果不重视这种挑战不抓住这个机遇,则发达国家有可能将信息技术作为新殖民化(信息殖民化)的有力武器。中文信息处理产业是否立得起来、立得好不好,关系到我国政治、经济、社会生活的变革,关系到我国在世界上的地位,甚至关系到我国的安全生存问题。信息处理主要是语言信息的处理,因此研究汉语语言信息处理的理论、方法、工具、资源,不仅是十分必要的而且迫在眉睫。当前,语言信息处理的竞争很大程度上取决于支撑的知识资源的竞争。 目前,世界上各国学者十分重视语言信息处理的知识资源的建设,知识包括词汇学知识、句法学知识、语义学知识、语用学知识乃至常识方面的知识,核心问题是语义学知识。相比而言,句法分析理论和技术(无论是对外语还是对汉语)发展得比较成熟和完善,语义学则是难度较大、起步较晚的一个薄弱环节,空白点更多。特别是面向机器处理的语义学研究,国内外起步时间均不长。汉语缺乏屈折变化,是意合语言是语义型语言,对语义的依赖更大,句法分析对句子的贡献比英语等语言要小,语义分析对汉语机器理解尤为重要。因此研究面向机器处理的汉语语义知识表示更具有重大意义。 根据框架语义学,格关系、槽关系和情态是句义的三大语言知识工程。格关系(论旨网格)描写的是论旨角色(格角色

您可能关注的文档

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档