- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
词的内部结构研究-计算机应用技术专业论文
词的内部结构分析中文摘要
词的内部结构分析
中文摘要
I
I
PAGE
PAGE IV
词的内部结构分析
中文摘要
词法分析是自然语言处理中最基础、最关键的步骤。在中文信息处理领域,词法 分析的一般做法是通过分词给词和短语划定边界,从而使汉语的后续处理过程跟英语 等西方语言基本一致。然而,汉语中词与短语之间的界限比较模糊,许多情况下,某 些语言单位就连语言学家也很难确定是语素、词还是短语。这导致实践中人工标注的 分词语料存在严重的不一致性,而这种不一致性无疑会制约汉语的后续处理工作。
分词语料的不一致性不仅体现在不同语料库间分词标准不同,而且同一语料库中 的分词标准也存在不一致。此外,不同的自然语言处理应用对词的粒度大小也有不同 的需求,单一的分词标准难以满足各种要求。因此,针对目前中文分词的不足和实际 应用的需要,本文给出了一种与传统分词不同的词法分析选择,即分析词的内部结构。 相比于传统的分词,分析词的内部结构能够同时获得词的边界和内部结构信息,它更 加符合汉语词法与句法边界模糊的事实,解决了语料库标准不一致问题并满足了不同 应用的需求。本文针对词的内部结构分析方法的研究,开展了以下几个方面的研究工 作:
首先,本文阐述了词内部结构分析详细的任务定义,并严格按照任务定义标注了 PKU1998 年 1 月的《人民日报》语料,将该语料的 80%作为训练语料,剩余的 20% 作为测试语料进行研究。此外,由于还没有在 PKU 语料上进行词内部结构分析的相 关研究,所以没有现成的评测工具可以使用。本文借鉴了句法分析的评测方法,设计 了一套适合评测词的内部结构分析结果的方法。
其次,提出了一种基于层叠 CRF 模型的词结构分析方法。该方法包括底层模型 和高层模型两部分。底层模型是在识别词的内部结构之前,对汉字序列进行细粒度分 词。高层模型是对经细粒度分词后的词序列使用 CRF 模型来识别词的内部结构。实 验结果表明,该方法对词结构的识别取得了较高的准确率,总体性能达到了实用水平。
最后,提出了一种利用扩展标记集来实现词结构分析的方法。核心思想是将词结 构中的前缀和后缀作为特殊词位来识别,通过识别前后缀来识别词的内部结构。与基
中文摘要 词的内部结构分析
于层叠 CRF 模型的词结构分析方法相比,该方法克服了细粒度分词所带来的错误传
递。实验证明,相比于基于层叠 CRF 模型的词结构分析结果,该方法进行词结构分 析的整体性能有所提高。 关键词:词法分析;中文分词;分词标准;内部结构;层叠 CRF
作 者:方 艳 指导老师:周国栋
李中国
Par
Parsing the Internal Structures of Words
Abstract
III
III
PAGE
PAGE IV
Parsing the Internal Structures of Words Abstract
Lexical analysis is the most basic and critical step in natural language processing. In Chinese information processing, the general way of lexical analysis is recognizing boundaries between words and phrases by word segmentation so that the subsequent processing of Chinese can be the same with English and other western languages. However, boundaries between Chinese words and phrases are vague, and in many cases, it is difficult for linguists to determine whether a language unit is a morpheme, a word or a phrase. This has led to serious inconsistency in human annotated corpus which will undoubtedly restrict Chinese subsequent processing work.
The inconsistency of word segmentation standard embodies not only in different corpora, but also in the same corpus. In addition, differ
您可能关注的文档
- 船舶油改气安全控制系统的硬件设计与研制-电气工程专业论文.docx
- 船舶油改气安全控制系统设计及软件实现-电气工程专业论文.docx
- 船舶油污损害赔偿基金制度分析-法律专业论文.docx
- 船舶油污损害赔偿基金制度研究-国际法学专业论文.docx
- 船舶油污损害赔偿的法律问题-环境与资源保护法学专业论文.docx
- 船舶油污损害赔偿法律制度分析-法律专业论文.docx
- 船舶油污损害赔偿范围问题研究-国际经济法专业论文.docx
- 船舶油污致自然资源损害赔偿的立法问题研究环境与资源保护法专业论文.docx
- 船舶沿岸航行水动力数值研究-船舶与海洋工程专业论文.docx
- 船舶混合动力系统能量管理策略研究-轮机工程专业论文.docx
- 2026年中国单头双点打胶机行业市场数据调查、监测研究报告.docx
- 2026年中国氧化锆磁环行业市场数据调查、监测研究报告.docx
- 2026年中国自动充气排空电磁阀行业市场数据调查、监测研究报告.docx
- 2026年中国去皱眼霜行业市场数据调查、监测研究报告.docx
- 2026年中国氯磺化聚乙烯双胶层油管行业市场数据调查、监测研究报告.docx
- 2026年中国型钢抛丸清理机行业市场数据调查、监测研究报告.docx
- 2026年中国卧式真空振动流动干燥机行业市场数据调查、监测研究报告.docx
- 2026年中国青铜门行业市场数据调查、监测研究报告.docx
- 2025年事业单位工勤技能-青海-青海无损探伤工三级(高级工)历年参考题典型考点含答案解析.docx
- 2026年中国中线型蝶阀行业市场数据调查、监测研究报告.docx
最近下载
- (高清版)B 7231-2003 工业管道的基本识别色、识别符号和安全标识.pdf VIP
- 陕西省西安市第六中学等多校2023-2024学年七上期中联考数学试题(解析版).docx VIP
- “双减”背景下中小学劳动教育跨学科融合研究 论文.docx VIP
- 家长走进课堂-课件.ppt VIP
- 互换性与技术测量(第六版可参考)课后习题答案.pdf VIP
- 矿井灾害预防与处理计划.pptx VIP
- 部编版四年级语文上册专项复习课件(共计6套).ppt
- 国家公费师范生和国家优师专项的区别.docx VIP
- 防腐保温防护工程施工方案(3篇).docx
- 陕西省西安市第六中学等多校2023-2024学年七上期中联考数学试题(原卷版).docx VIP
原创力文档


文档评论(0)