深度学习研究分析与总结.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

深度学习研究分析与总结

过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉

任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理,

以及中文自然语言处理上,似乎没有太厉害的成果?尤其是中文短文本处理的问

题上,尚且没有太成功的应用于分布式条件下的深度处理模型?(大公司或许有,

但没有开源)本文暂且梳理一下,尝试围绕深度学习和短文本处理的方方面面

就最简单的概念进行一次梳理,并且试图思考一个问题:深度学习处理中文短文

本的最终效果是什么?我思考后的答案是:答:是一种模型,可以无需任何语言

学知识或手工特征设计,就可被用于中文分词、词性标注以及命名实体识别等多

种中文自然语言处理任务,甚至直接改造为分布式大数据可以使用的框架。姑

且认为200字以内的都叫短文本短文本具有特征稀疏性、奇异性、动态性、交

错性等特点①稀疏性。每条短文本形式信息的长度都比较短,都在200字以内,

因此所包含的有效信息也就非常少,造成样本的特征非常稀疏,并且特征集的维

数非常高,很难从中抽取到准确而关键的样本特征用于分类学习。②实时性。在

互联网上出现的短文本形式的信息,大部分都是实时更新的,刷新速度非常快,

聊天信息、微博信息、评论信息等,并且文本数量非常庞大。③不规则性。短文

本形式的信息用语不规范,包含流行词汇较多,造成了噪声特征非常多,如“94”

代表“就是”,“88”代表“再见”,“童鞋”代表“同学”,而且更新很快,如流

行词“伤不起”、“有没有”、“坑爹”“屌丝”、等等。中文分词就是将连续的

字序列按照一定的规范重新组合成词序列的过程。众所周知,英文单词是用空格

来进行分隔的,在中文的字与字之间、句子与句子之间、段落与段落之间也都能

找到分界符。另外,在中英文中都存在短语划分这个问题,但是词与词之间却找

不到形式上的分界符。词是最小的能够独立活动的有意义的语言成分,因而,中

文在词的划分这个问题上是个非常巧杂而关键的问题。现有的分词算法可分为3

大类:基于字符串匹配的分词方法又称为机械分词方法,它是按照一定的策略将

待分析的汉字与一个"足够大的"词典中词条进行匹配,若在词典中找到某个字

符串,则匹配成功。按照扫描方向的不同,串匹配分词方法可分为正向匹配和逆

向匹配;按照不同长度优先匹配的倩况,可分为最大(最长)匹配和最小(最短)

匹配;按照是否与词性标注过程相姐合,又可分为单纯分词方法和分词与标注相

结合的一体化方法。常用的基于字符串匹配的分词方法有:A)正向最大匹配

法,按照文字的阅读顺序进行匹配;B)逆向最大匹配法,按照文字的阅读顺

序反向进行匹配;C)最小切分法,使每一句中切出的词数量最少。由于汉语

单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。正向最大匹配

法逆向匹配的切分精度略髙于正向匹配,遇到的歧义现象也较少。统计结果显示,

单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为

1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把

机械分词作为一种初分手段,还需要通过利用各种其它的语言信息来进一步提高

切分的准确率。上述方法虽然实现简单、速度快,但处理分词歧义能力较差,严

重依赖于词表,不能识别新词语,即未登录词。为了解决分词歧义与未登录词的

问题,90年代初期出现了基于规则的分词系统,包括专家系统、短语结构文法

等。基于规则的"演泽推理"方法,能较好的解决有规律的分词歧义和未登录词,

具有一定的领域适应性、效率很髙。但中文语言现象非常复杂,存在很多无规律

的分词歧义和未登录词。因此一般采用其他算法如:动态规划等相结合提高准

确率。基于统计的分词方法只需对语料中的字信息进行统计,不需要切分词典,

因而又称为无词典分词法或统计取词法。从形式上看,词是稳定的字的组合,在

上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字

相邻共现的频率或概率能够较好的反映成词的可信度。因而可对语料中相邻共现

的各个字的组合的频度进行统计,计算它们的相关度,计算两个汉字A、B的相

邻共现的概率。可对语料中相邻共现的各个字的组合的频率进行统计。这种方法

首先切分与词典能匹酷成功的所有可能的词,即找出所有候选词条,然后运用统

计语言模型和决策算法得出最优的切分结果。由于纯粹从统计的角度出发,因此

在统计意义上某些经常出现在一起

文档评论(0)

nicechuntian + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档