转载 再谈词类与词性标注.docVIP

  • 4
  • 0
  • 约7.25千字
  • 约 11页
  • 2018-06-14 发布于福建
  • 举报
转载 再谈词类与词性标注

转载 再谈词类和词性标注 原文地址:再谈词类和词性标注作者:songrou再谈词类和词性标注 宋柔 一、为什么要研究词类和词性标注 1990年代以来,机器学习为代表的统计方法在语言信息处理中占了主流地位,其主要的知识表示形式不是传统的词典、规则库,而是语料库。用作训练的汉语语料,多数是分了词、标注了词性的语料。训练所用的特征,多数就是词形和词性。如此,词性标注成了语言信息处理的根基。这个根基牢不牢,非常地关乎到应用系统的性能。此外,许多单位都花费了大量人力财力和时间在做词性标注。这个投入值不值,关乎到语言信息处理的方向引导。 奇怪的是,对于这样的大事,似乎语言本体学界和计算语言学界都不大在意。没有争论和质疑,悄没声地大家就开始做工程,应诺多少百万字、多少千万字,开始制订规范标注语料了。有课题组的语料库,公司的语料库,还有国家语料库。似乎汉语就是名动形这样的词类体系,这类体系落实到语境中,就是词性标注。英语是这样做的,取得了成功,汉语只能循此路追上去。这是顺理成章,天经地义的。进而,还有些人觉得分词规范不够,要做词性标注规范,要做成国家标准,要求大家都照此执行,不执行标准者有可能被封杀。 但是,科学不承认天经地义。越是基础性的东西,越要质疑,保证它确无问题(至少是未能发现大问题)了才能搞工程,广布基础、筑建高楼。闭着眼睛布基础盖高楼,心里是不踏实的。至于对尚在争论、尚在探索的科学问题

文档评论(0)

1亿VIP精品文档

相关文档