面向信息处理的而类短语钻研.pdfVIP

  • 2
  • 0
  • 约7.71万字
  • 约 66页
  • 2018-06-26 发布于贵州
  • 举报
面向信息处理的而类短语钻研

摘 要 本文以2000年的人民日报为研究载体,共计24,181,518字,根据不同考察目 的逐条分析标注,统计,得出数据,找出规律。本文先研究连词“而”识别规则, 再对“形l+而+形2”格式的识别规则进行研究,最后,考察了“为A而B”格式的 识别规则。文章共分8章部分,共五部分。 第一部分,从第0章到第2章,文章对前人的研究做了综述,对语料进行了预 处理,对文章中所用到的变量,规则,条件表达式都进行了详细地说明。 第二部分,从第3章到第4章,文章详细地描述了含“而”的双音节短语在语 料中所出现的分词歧义现象,并对它们进行了消歧规则的研究,从而作了语素 “而”的识别规则。 第三部分,即第5章。文章对含“而”的多音节短语情况进行了考察并建立 了两个词表,普通词表和常用短语表,分别收词90个和1158个. 第四部分,从第6章到第7章,文章进行了“丙”和介词构成的特殊格式的识 别规则研究。我们首先进行了“形容词1+而(又)+形容词2”格式的识别规则研 究。在此基础上我们进行了“介A而B”特殊格式的计算机自动识别规则的考察, 并以“为A而B”格式为特例做了自动识别规则研究。 第五部分,即结语部分。 本文的研究以实现汉语句法自动理解为且标,以语料库为基础,进行汉语句 法规则的归纳和描述。研究的成果将促进语料库建设的发展、为现代汉语研究提 供新的课题并促进汉语研究的现代化,同时也将推动汉语自然语言信息处理的研 究向纵深发展。 关键词:“而” “为A而B” 语料预处理 分词歧义 识别规则 Abstract article onthe of in totalizes This bases 2000。which corpusPeople’SDaily tobe billion on ofthe 2.4。181,518 words,focusesrecognition conjunction。而。 structure withthe of andthe analyzing。labeling,andhelp ofadjl+而+adj2。by rulesfromstatistics。and onthe get finallystudy recognitionof。Prep+A+而+B。. is into8 5 Thisarticledividedchapters,mainlyparts. about and onthe Part summadzation 0-2)is pretreatment 1(Chapter thevadableand the of formula。and expression corpus,defines specifies condition. Part ontheresearchof 3·4)focuses 2(Chapter segmentationambiguities ofthe occursinthe

文档评论(0)

1亿VIP精品文档

相关文档