- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要摘
摘要
摘 要
词类划分与词性标注都是自然语言处理中重要的基础性研究课题,也是后续 研究如浅层句法分析、文本分类、机器翻译等的基础。该课题的研究方法主要有 三种:基于规则的方法、基于统计的方法以及两者相结合的方法。其中,基于统 计的方法又分为监督学习、半监督学习和无监督学习等三种学习方式。本文主要 从基于统计的角度去探索词类划分和词性标注的,主要内容如下:
1、兼类词词性消歧是中文词性标注的难点之一。本文集成了支持向量机, 条件随机场,最大熵等三种分类模型,对兼类词词性进行投票消歧,把得票多的 词性作为该词的词性。以1998年1月份已标注《人民日报》为实验语料,对120 个常见的兼类词进行开放测试,平均精度达到89。69%,取得了较好的效果。
2、词类划分是指词语在语法意义上的分类,即词与词相组合的过程中所体 现出来的类别。本文以句法功能信息库为蓝本,以该库中所列的14个属性为特 征空间,以其中的句法功能统计数据作为特征值,并对这些空间特征进行归一化 处理,利用彳尸算法,对它收录的3514个词进行聚类,共聚出62类,基本上把 语法相同的或相似的词归为了一类。
3、对词性进行聚类也是研究兼类词消歧的手段之一。本文从1998年1月份
《人民日报》中抽取了12个兼类词,这些兼类词在分类时,效果不好,而且基 准精度较低,区别度不大。本文利用AP聚类、k-means聚类、谱聚类等常见聚 类算法;分别采用了欧氏距离、Dice系数、夹角余弦作为相似度的衡量方法; 采用上下文词频作为特征,并对这些特征进行了提升、归一化等处理,然后进行 聚类实验,取得了较好的实验结果。
关键字:词类划分,词性标注,词聚类,兼类词,兼类词消歧
AbstractThe
Abstract
The classification and POS tagging are important basic research subjects in Natural Language Processing,and also bases of future research,such as:shallow parsing,text classification,machine translation.There are mainly three methods to research the subjects:based on rule,based on statistics and combination of the both.
The research method based on statistics is divided into supervised learning, unsupervised learning and semi-supervised.This article explores classification and tagging of POS mainly from the view of statistics.The main work is as follows:
I,The disambiguation of multi-category words is one of the difficulties for POS tagging of Chinese words.In order to tackle this problem,this article integrates three types of classification model:Support Vector Machine,Maximum Entropy and
Conditional Random Fields.With voting to disambiguate the multi—category word,the POS that get the most votes is view as the word’S POS.1 20 o.沁IDlTlon multi·category
words from People j Daily corpus published on January 1 998 are tested.The average
accuracy of open test is up to 89.69%,showing a relative good result
2,The classification of words refers to the classification of words in掣铷n【nar namely the category of words reflected in the process of phase
您可能关注的文档
- 海底生物燃料电池电极设计及催化降解作用研究-材料学专业论文.docx
- 广东省建筑卫生陶瓷品牌战略的研究-工商管理专业论文.docx
- 广东省建筑卫生陶瓷品牌战略的分析-工商管理专业论文.docx
- 过渡族金属氧化物纳米材料的水热法制备及表征-材料物理与化学专业论文.docx
- 广西桂南地区乡镇初中英语教师信息素养现状研究-课程与教学论专业论文.docx
- 关于三维人脸图像数据融合的研究 计算机应用技术专业论文.docx
- 海峡两岸受贿犯罪立法比较研究-刑法学专业论文.docx
- 关于PMOS辐照传感器的模拟研究-微电子学与固体电子学专业论文.docx
- 桂阳县新型城镇化进程中耕地资源保护研究-土地资源管理专业论文.docx
- 海洋元数据目录服务系统的研究与实现-计算机软件与理论专业论文.docx
- 关于家务劳动产出核算的研究-统计学专业论文.docx
- 哈尔滨市阿城区畜牧业发展对策研究-公共管理专业论文.docx
- 观赏海棠花青素代谢途径与产物的研究-果树学专业论文.docx
- 海域使用权的界定-民商法学专业论文.docx
- 关于我国农村养老保险的思考-财政学专业论文.docx
- 汉赋中的音乐世界-中国古典文献学专业论文.docx
- 国内外电网大面积停电的规律统计及应急体系评价-电力系统及其自动化专业论文.docx
- 关于我国商业银行绩效考核体系的分析-工商管理专业论文.docx
- 含水量和应力状态对晋西黄土抗剪强度的影响研究-地质工程专业论文.docx
- 关于我国商业银行绩效考核体系的研究-工商管理专业论文.docx
最近下载
- 医师访谈记录.pdf VIP
- Unit 4 School Life 第3-4课时Reading and Rriting 课件 中职高一学年英语高教版基础模块1.ppt
- 最新中药饮片质量标准通则(试行).doc VIP
- 医学临床三基(输血学)-输血免疫学基础(精选试题).pptx VIP
- 我们的大脑的教学课件.ppt VIP
- 洞察世间智慧:哲学伴随我成长课件.ppt VIP
- 超星网课《汽车之旅》超星尔雅答案2023章节测验答案.doc VIP
- 老年人继承法培训课件.pptx VIP
- 科学湘科版二年级上册全册课件.pptx
- 第7课全球航路的开辟和欧洲早期殖民扩张【中职专用】《世界历史》(高教版2023基础模块).pptx VIP
文档评论(0)