- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多粒度分词演示系统
摘 要:中文分词一直是中文信息处理领域的一项重要技术,它是机器翻译,搜索引擎,文本分类等应用不可或缺的基础部分。中文分词方法也在不断地发展,但是这些方法仅仅聚焦于单粒度分词,即一个句子被分割成唯一的一个词序列。于是,最近有人系统地在数据驱动的机器学习框架下正式提出并解决了中文多粒度分词任务。 该毕业设计旨在实现一个多粒度分词演示系统,让用户在浏览器一端输入中文句子,网页能够即时的显示多粒度分词结果。因此本文的工作大体上可以分为两部分。第一部分,实现多粒度分词算法。主要尝试了两种算法,第一种基于词典匹配的动态规划解码算法,第二种基于深度学习的前馈神经网络模型。最后用两者在1500个测试句子上进行评价,比较它们的优劣。第二部分为Web网页的设计,前端选用普通的css+JavaScript+html技术,后端则选用python的Flask框架搭建,通过调用前面设计好的算法实现分词,把结果传到前端,最后再将结果以合适的形式展现出来。 关键词:自然语言处理;中文信息处理;中文分词;多粒度分词;Web开发 前 言 和大部分西方语言不同,一个汉语句子中间没有明显的分隔符,它是由连续的字序列构成的。因此对中文进行处理的第一步就是进行自动分词,即将字串转变成词串。自动分词的重要前提是确定词的分界要按什么标准进行划分。中文中具有意义的最小单位是词(含单字词),但是词的定义非常抽象且因人而异。给定某文本,按照不同的标准的分词结果往往不同。词的标准成为分词问题一个很大的难点,没有一种标准是被公认的。 作为中文信息处理的第一步,分词已经在过去几十年里被广泛研究并且做出巨大进步。同时分词的方法也在逐渐地改进,从基于词典的最大匹配,到基于语言模型分值和其他数据的路径搜寻分词,到基于字符的序列标记。最近,神经网络模型通过有效的学习字符和文本内容含义也取得了成功。 但是大部分这些研究都主要聚焦于单粒度分词,即一个句子被分割成一个单一的词序列。然而由于中文语言的特殊性,人们对于词的定义和分界存在着非常大的歧义。在不同的语料集中,对同一句子的分词结果可能不同,这就给数据标注带来了挑战。同时,在不同的应用中,中文分词的粒度粗细也会影响结果。 于是为了解决上述问题,多粒度分词任务被系统地提出。给定一个句子输入,目标是产生不同粒度的所有单词结构本工作主要是实现简单的多粒度分词算法和模型,并且通过Web开发技术调用模型,在网页端能显示出树状的分词结果。本文实现的多粒度方法主要是以下两种。第一种方法把句子看作一棵成分分析树,由各个子成分组成,为每个句子成分(span)赋予一个分值,该分值通过查字典获得。目标就是找到一棵分值最大的树,作为分词的结果。第二种方法是利用深度学习理论搭建一个前馈神经网络,把多粒度分词任务看作序列标注进行学习和训练。再把结果进行规制约束或解码得到一棵最优的树。最后利用Flask框架搭建后端,把分词结果传到前端,前端再利用JavaScript技术显示出结果。 第1章 绪论 本章首先介绍了中文分词的研究背景和意义,其次引出多粒度分词任务和意义。并概述了本文所做的主要工作和贡献。 1.1 研究背景 中文信息处理(CIP,Chinese Information Processing)是自然语言处理(NLP,Natural Language Processing)的一个分支领域,目的是让计算机正确的处理中文,甚至能够理解中文。但是和大部分西方语言不同,一个汉语句子中间没有明显的分隔符,它是由连续的字序列构成的。因此对中文进行处理的第一步就是进行自动分词,即将字串转变成词串[1]。机器翻译(MT,Machine Translation)、搜索引擎、自动校对、语音合成、自动摘要、自动分类等许多应用,都需要用到分词。 自动分词的重要前提是以词的分界要按什么标准进行划分。中文中具有意义的最小单位是词(含单字词),但是词的定义非常抽象且因人而异。中文不像英文和法文那些隔离的语言,而是属于多合成的类型。它的复合词是从土生土长的词素中产生的。词素和复合词之间的模糊界限导致了对于词的概念的认知分歧。研究表明,中国母语人共识比例在没有经过共同指导培训的情况下仅为76%[2]。给定某文本,按照不同的标准的分词结果往往不同。词的标准成为分词问题一个很大的难点,没有一种标准是被公认的。[3] (3)未登录词,例如: 最后,词的颗粒度选择问题也是分词的一个难题。对于苏州大学这个短语,可以认为这是一个整体,表示苏州的一所大学。但也可以认为是苏州和大学两个词构成的短语。在不同的应用中,分词粒度的粗细很有可能影响结果。比如在机器翻译中,一般来讲颗粒度大翻
原创力文档


文档评论(0)