当代汉语文本语料库分词、词性标注技术报告.DOCVIP

  • 68
  • 0
  • 约6.96千字
  • 约 7页
  • 2017-12-02 发布于天津
  • 举报

当代汉语文本语料库分词、词性标注技术报告.DOC

当代汉语文本语料库分词、词性标注技术报告.DOC

当代汉语文本语料库分词、词性标注技术报告 杨尔弘 山西大学计算机与信息技术学院 山西 太原 030006 yeh@sxu.edu.cn 研究目标和内容 本项目的研究目标是:选择500万汉字的国内正在流通的汉语文本,力求表现当代语言的最新面貌,经过自动分词、词性标注和人工校对,建成高质量的带有完整词类标记的当代汉语通用语料库。力争形成具有广泛适用范围的中文信息处理基础资源。 具体研究内容包括: 语料库的选材范围和分布比例:语料库的选材力求在通用性上达到一个较高的水平,并反映当代汉语的最新面貌。 分词与词性标注规范:制定符合汉语特点的,从信息处理的实际要求出发的当代汉语文本加工规范。该加工规范要确立分词标准、词表的选词原则和词性标注体系。该规范的制定要吸收语言学家的研究成果,并兼顾已有的语料库标注的词性分类体系,具有开放性和灵活性,以便适用于不同的中文信息处理系统。 自动分词和词性标注的难点问题:歧义切分、专名和新词语的识别、兼类词的标注是切分和标注的难点问题,将这些问题进一步细化,以便获得解决这些问题的颗粒度更加细致的知识,为自动处理提供良好的知识资源。 语料库加工的辅助工具:开发对分词和词性标注结果进行人工校对的辅助工具,提高整体处理效率及良好的保持语料加工的一致性。 语料库加工质量的评价及评测系统:为保证语料加工的质量,制定分阶段的质量控制指标及评测方法。 按照我们确定的研究目标,我们已完成500万汉字的当代汉语文本语料的切分和标注任务,形成了良好的语言资源。 相关的研究 语料库的分词和词性标注是语料库语言学研究的基础课题,从最早的带有词性标记的英语语料库(如Brown 语料库、LOB语料库)到目前不同语种的各种带有词性标注的语料库已经纷纷涌现出来,如汉语语料库、日语语料库、韩语语料库等。汉语语料库的建设开始于20世纪80年代末期,目前,已经形成了一些不同规模,服务于不同应用的语料库,如清华大学与北京语言大学共同建立的规模为200万汉字的分词标注语料库、国家语言文字工作委员会从1991年开始建立的,目前仍在进行中的规模为7000万汉字的国家级的大型汉语语料库、北京大学与富士通合作开发的2700万汉字的人民日报标注语料库等。这些语料库的建设均根据任务的目标,从选材、分词和标注规范的制定等方面进行了研究。 本次加工完成的500万汉字的语料库,吸收了以往语料库建设的经验,在选材上强调了当代流通性较高的汉语文本,在分词和词性标注上,通过分析现有语料库的情况,对切合不统一的字串以及标注不统一的词语进行了收集,形成了合分字串库、兼类词语实例库。这些对基于语料库的语言研究、统计模型中训练数据的获得、语料库分词和词性标注的评测等奠定了良好的基础。 分词词性标注语料库的构建原则 根据我们的研究目标,从选材、分词和词性标注等方面制定了构建语料库所遵循的原则: ·选材原则 力求反映当代汉语的最新面貌。选择2002年以来流通量大、传播率较高、流通时间较长的文本。 构建语料库时,文本的分类从主题、体裁、来源三个方面综合考虑,力求在主题和体裁上具有较好的平衡性,所提供的训练数据具有良好的通用性。 选取的文本以自然段落为准,而不是以字数为准。避免选取过长或过短的文章,但在选取文章后,随自然段截取样本。这样可以得到较完整的语言信息的内容。 ·切分原则 在进行切分和标注时,以词类为纲对各类单位作具体切分与标注规定。切分时,制定了基本原则和辅助原则,基本原则具有不变性,辅助原则则视具体的情况具有一定的弹性。 基本原则: 词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。 “分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。 分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。 辅助原则: 词表原则:使用频率高的字串收入词表,作为一个分词单位,收入词表的词语不再按具体的规定进行切分。 语素一般不单独切分,与前后词语形成一个切分单位。 ·标注原则: 词类划分以语法功能为主要依据。词语的意义有时也起着某些参考作用。 允许有兼类,但兼类词语的个数要控制。兼类词的标记确定要依据该词语在具体的语境中的语法功能和意义。 词类加工规范的标记集中的大类应能覆盖现代汉语的全部词。 为满足计算机处理真实文本词类标注的需要,所定义的词类标记集,覆盖了比词小的单位,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等;比词更大的单位,如习用语、简称和略语,以及标点符号、非汉

文档评论(0)

1亿VIP精品文档

相关文档