汉语语料库的切分标注处理和专名识别-计算机软件与理论专业论文.docxVIP

汉语语料库的切分标注处理和专名识别-计算机软件与理论专业论文.docx

  1. 1、本文档共63页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语语料库的切分标注处理和专名识别 汉语语料库的切分标注处理和专名识别 摘要 汉语语料库的切分标注处理和专名识别 摘要 当今信息处理中占绝大比例的是语言文字的处理,与传统的理性主义方式相辅的是经 验主义方法,其中大规模真实文本语料库加工因具有实用性强、见效快的特点,普遍受 人欢迎。 语料库语言学是80年代才崭露头角的~门计算语言学的新的分支学科,它的应用领 域极广,包括文本分类、检索、自动摘要、信息获取、简单的机器翻译和基于实例的对 话系统。语料库语言学研究的基础是机器可读的大容量语料库,由于原始的未经加工处 理的文本(生语料)很少直接起作用,需要先对其进行分析处理才能运用于实践。 汉语不同于印欧语种,缺乏天然的分割信息,要进行汉语的计算机处理,必须首先将 汉语的词与词分开,即分词(也称切分),切分是中文语料处理的第一步;为词语标上其 _}:吁属的词类就是词性标注,是语料进一步加工的必须过程。由于多年来汉语语料切分标 :缺乏一个全国统一的详尽的加工标准,各家研究机构由于研究目的等不同,加工的语 j斗不能兼容,造成了资源的重复建设和浪费;同时,切分中的排岐和未登录词特别是专 沼词的识别一直困扰着切分标注,成为语料加工的瓶颈,甚至可以说也成为整个中文 i息处理平台的瓶颈。本文主要着重解决这两个问题。 本文设计并基本实现了一个具有专名识别功能的多输出的汉语切分标注系统,同时考 ·《了系统的效率和可扩充性等实用方面的问题。 为了能使加工的语料既符合国家制定的加工规范,又能适应不同应用的实际需求,本 文提出了一个规范独立的加工模型。在基本的分词和标注模块之后,有一个单独的规范 爿则处理模块,系统的分词和标注模块可同切分标注的相关规范无关,一旦规范修改, 一需替换切分标注规范规则文件即可。同时,本系统在加工中对每个词都加上了信息, 』卜性化输出模块可阻根据这些信息按需输出不同颗粒度大小的加工结果。 在切分和标注模块,系统改进了前缀码分词算法,采用了结合前缀词表的首尾二字哈 希查找算法来提高效率,同时,针对单独使用规则或概率方法消歧的不足,将两种方法 有机的结合起来进行歧义消减。 在专名识别方面,在参考国内各家方法的基础上,系统设计了自己的人名识别和地 名识别的统计模型,提出了一套结合上下文信息,综合运用统计、规则、资源库的识别 方法。方法提出了专名识别缓冲区的概念,更加注重局部范围内专有名词的出现频率。 在实现系统中获得显著效果 在本文的最后,在对测试数据分析的基础上,针对系统的不足,提出了系统进行进 一步改进的侧重点和方法。 关键词 语料库,规范,切分,词性标注,专有名词,哈希表 汉语语科库的切分标注处理和专名识别 汉语语科库的切分标注处理和专名识别 摘要 SEGMENTAT I ON,PART OF SPEECH TAGG I NG OF CH I NESE CORPUS AND PROPER NOUN RECOGNITl0N ABSTRACT Nowadays a majority of information processing research is natural langmge processing. And there are two kinds of language analysis methods,experimentalism method and intellectualism method,which are supplement each other.As a kind of experimentalism method,large—scale realistic text corpus processing is very popular because of its great practicability and effects. Corpus linguistic is a new branch ofcomputational linguistic which made a figure in 1980s. It Call be applied to the fields of sorting,searches,text condensation,information acquisition, simple machine translation and instance based dialog system.The base of corpus linguisti

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档