面向信息处理的而类短语钻研.pdfVIP

下载本文档

2
0
约7.71万字
约 66页
2018-06-26 发布于贵州
举报

面向信息处理的而类短语钻研.pdf

面向信息处理的而类短语钻研

摘要本文以2000年的人民日报为研究载体，共计24，181，518字，根据不同考察目的逐条分析标注，统计，得出数据，找出规律。本文先研究连词“而”识别规则，再对“形l+而+形2”格式的识别规则进行研究，最后，考察了“为A而B”格式的识别规则。文章共分8章部分，共五部分。第一部分，从第0章到第2章，文章对前人的研究做了综述，对语料进行了预处理，对文章中所用到的变量，规则，条件表达式都进行了详细地说明。第二部分，从第3章到第4章，文章详细地描述了含“而”的双音节短语在语料中所出现的分词歧义现象，并对它们进行了消歧规则的研究，从而作了语素 “而”的识别规则。第三部分，即第5章。文章对含“而”的多音节短语情况进行了考察并建立了两个词表，普通词表和常用短语表，分别收词90个和1158个．第四部分，从第6章到第7章，文章进行了“丙”和介词构成的特殊格式的识别规则研究。我们首先进行了“形容词1+而(又)+形容词2”格式的识别规则研究。在此基础上我们进行了“介A而B”特殊格式的计算机自动识别规则的考察，并以“为A而B”格式为特例做了自动识别规则研究。第五部分，即结语部分。本文的研究以实现汉语句法自动理解为且标，以语料库为基础，进行汉语句法规则的归纳和描述。研究的成果将促进语料库建设的发展、为现代汉语研究提供新的课题并促进汉语研究的现代化，同时也将推动汉语自然语言信息处理的研究向纵深发展。关键词：“而” “为A而B” 语料预处理分词歧义识别规则 Abstract article onthe of in totalizes This bases 2000。which corpusPeople’SDaily tobe billion on ofthe 2．4。181，518 words，focusesrecognition conjunction。而。 structure withthe of andthe analyzing。labeling，andhelp ofadjl+而+adj2。by rulesfromstatistics。and onthe get finallystudy recognitionof。Prep+A+而+B。． is into8 5 Thisarticledividedchapters，mainlyparts． about and onthe Part summadzation 0-2)is pretreatment 1(Chapter thevadableand the of formula。and expression corpus，defines specifies condition． Part ontheresearchof 3·4)focuses 2(Chapter segmentationambiguities ofthe occursinthe

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

面向信息处理的而类短语钻研.pdfVIP