词性标注系统的设计与实现.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
词性标注系统的设计与实现 TheDesignand Implementation oftheChinesePart——of——speechTaggingSystem 张 卫 (南京师范大学 国际文化教育学院 南京 210097) 摘 要 介绍 了词性标注系统的设计与实现 ,描述 了该 系统的功能和总体结构,系统的各模块及其功能。系统所使用 的兼类词典、非兼类词典、词性标注集,最后对系统的总体性能进行测试并对测试结果进行 了分析。 关键词 词性标 注 系统 结构 模块 词典 中图分类号 TP391.12 词性标注是实现 自然语言处理 目标——分析和理解语言 的中文分词组件 。待处理的文本经过 中文分词后 ,由字 串变 的一个中间环节 ,其任务是为文本 中的每一个词都标记上一 成词串,再 由以下的b.至 d.模块进行处理。 个合适的标记,也就是说我们要确定每个词是名词、动词、形 容词或其他词性…。在信 息检索领域引入 自然语 言处理 (NLP),是信息检索领域一个很重要的趋势。中文文本词性 标注作为 自然语言处理中较为成熟的技术 ,其对于信息检索 的意义主要有 J:a.实现词义消歧,减少查询模糊,提高信息 检索检索效果 Ib.利用词性标注去除停用词,减少索引量 ,提 升信息检索系统的检索效率;c.为信息检索系统向智能化方 向发展提供基础。 本文所设计实现的词性标注系统是基础教育搜索引擎系 统中的一个子系统 ,本文将主要探讨词性标注系统的设计与 实现的具体 问题。首先从整体介绍系统的功能、架构和处理 流程 ,然后介绍了系统各个模块单元 的功能及其设计 ,接下来 图 1 词性标注系统结构流程 图 描述 了词性标注系统所需词典、统计数据和词性标注集 的格 b.词性匹配模块。本模块作为词性标注的第一步,需要 式等具体信息 ,最后对系统的总体性能进行了测试,并对测试 用到兼类词典和非兼类词典。对于每一个词,其处理过程为: 结果进行分析 。 首先查非兼类词典 ,若匹配成功则标注唯一的词性。因为在 汉语文本 中,兼类词的数量毕竟是少数 ,如本系统所使用词典 1 系统功能与整体架构 中兼类词只占到所有词 的9.3%左右。否则,查兼类词词典, 在对输入 的中文文本进行 中文分词处理后 ,文本 由汉字 标记该词所有 的词性。若非兼类词词典和兼类词词典 中都不 串变为词 串,词性标注程序首先利用非兼类词典和兼类词典 存在该词 ,则将其作为未登录词 ,交 由未登录词处理模块进行 对文本进行初步词性标注 ,接下来对未登录词进行词性标注, 词性识别 。 最后对已标注文本 中的兼类词进行词性歧义识别和消除,选 c.未登录词处理模块 。本模块所采用未登录词 的词性标 择最合适的一种词性 ,并输出所有的词及其词性。具体的系 注策略中的思想为:将未登录词标记为名词 (19.)、动词 (v)、区 统结构流程 图如 图 1所示 。 别词 (b)、形容词(a)、副词 (d)、量词 (q)和时间词 (t)等五种词 性_4J,这样未登录词就作为兼类词处理,其词性选择将 由模块 2 系统逻辑单元设计 (4)完成 。 2.1 系统各模块及其功能 从图1中可以看出,本系统使 d.兼类词处理模块。该模块主要对前两个模块处理后带 用了多级处理策略L3],主要包括 四个部分 :中文分词模块、词 有多个词性标记的词进行词性歧义排除 ,需要用到的数据包 性匹配模块、未登录词处理模块 以及兼类词处理模块。 括词汇概率矩阵、词性出现频度表和词性转移概率矩阵。其 a.中文分词模块 。中文分词模块采用基础教育搜索引擎

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档