汉语词类划分与词性标注方法的研究-计算机科学与技术;计算机应用专业论文.docxVIP

下载本文档

19
0
约5.91万字
约 67页
2019-04-12 发布于上海
举报
版权申诉

汉语词类划分与词性标注方法的研究-计算机科学与技术;计算机应用专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要摘摘要摘要词类划分与词性标注都是自然语言处理中重要的基础性研究课题，也是后续研究如浅层句法分析、文本分类、机器翻译等的基础。该课题的研究方法主要有三种：基于规则的方法、基于统计的方法以及两者相结合的方法。其中，基于统计的方法又分为监督学习、半监督学习和无监督学习等三种学习方式。本文主要从基于统计的角度去探索词类划分和词性标注的，主要内容如下： 1、兼类词词性消歧是中文词性标注的难点之一。本文集成了支持向量机，条件随机场，最大熵等三种分类模型，对兼类词词性进行投票消歧，把得票多的词性作为该词的词性。以1998年1月份已标注《人民日报》为实验语料，对120 个常见的兼类词进行开放测试，平均精度达到89。69％，取得了较好的效果。 2、词类划分是指词语在语法意义上的分类，即词与词相组合的过程中所体现出来的类别。本文以句法功能信息库为蓝本，以该库中所列的14个属性为特征空间，以其中的句法功能统计数据作为特征值，并对这些空间特征进行归一化处理，利用彳尸算法，对它收录的3514个词进行聚类，共聚出62类，基本上把语法相同的或相似的词归为了一类。 3、对词性进行聚类也是研究兼类词消歧的手段之一。本文从1998年1月份《人民日报》中抽取了12个兼类词，这些兼类词在分类时，效果不好，而且基准精度较低，区别度不大。本文利用AP聚类、k-means聚类、谱聚类等常见聚类算法；分别采用了欧氏距离、Dice系数、夹角余弦作为相似度的衡量方法；采用上下文词频作为特征，并对这些特征进行了提升、归一化等处理，然后进行聚类实验，取得了较好的实验结果。关键字：词类划分，词性标注，词聚类，兼类词，兼类词消歧 AbstractThe Abstract The classification and POS tagging are important basic research subjects in Natural Language Processing，and also bases of future research,such as：shallow parsing，text classification,machine translation．There are mainly three methods to research the subjects：based on rule，based on statistics and combination of the both． The research method based on statistics is divided into supervised learning， unsupervised learning and semi-supervised．This article explores classification and tagging of POS mainly from the view of statistics．The main work is as follows： I，The disambiguation of multi-category words is one of the difficulties for POS tagging of Chinese words．In order to tackle this problem，this article integrates three types of classification model：Support Vector Machine，Maximum Entropy and Conditional Random Fields．With voting to disambiguate the multi—category word,the POS that get the most votes is view as the word’S POS．1 20 o．沁IDlTlon multi·category words from People j Daily corpus published on January 1 998 are tested．The average accuracy of open test is up to 89．69％，showing a relative good result 2，The classification of words refers to the classification of words in掣铷n【nar namely the category of words reflected in the process of phase