深度学习研究分析与总结.pdf

下载文档

1
0
约6.32千字
约 7页
2024-07-13 发布于河南
举报
版权申诉
保障服务

深度学习研究分析与总结.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

深度学习研究分析与总结

过去几年，深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉

任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理，

以及中文自然语言处理上，似乎没有太厉害的成果？尤其是中文短文本处理的问

题上，尚且没有太成功的应用于分布式条件下的深度处理模型？（大公司或许有，

但没有开源）本文暂且梳理一下，尝试围绕深度学习和短文本处理的方方面面

就最简单的概念进行一次梳理，并且试图思考一个问题：深度学习处理中文短文

本的最终效果是什么？我思考后的答案是：答：是一种模型，可以无需任何语言

学知识或手工特征设计，就可被用于中文分词、词性标注以及命名实体识别等多

种中文自然语言处理任务，甚至直接改造为分布式大数据可以使用的框架。姑

且认为200字以内的都叫短文本短文本具有特征稀疏性、奇异性、动态性、交

错性等特点①稀疏性。每条短文本形式信息的长度都比较短，都在200字以内，

因此所包含的有效信息也就非常少，造成样本的特征非常稀疏，并且特征集的维

数非常高，很难从中抽取到准确而关键的样本特征用于分类学习。②实时性。在

互联网上出现的短文本形式的信息，大部分都是实时更新的，刷新速度非常快，

聊天信息、微博信息、评论信息等，并且文本数量非常庞大。③不规则性。短文

本形式的信息用语不规范，包含流行词汇较多，造成了噪声特征非常多，如“94”

代表“就是”，“88”代表“再见”，“童鞋”代表“同学”，而且更新很快，如流

行词“伤不起”、“有没有”、“坑爹”“屌丝”、等等。中文分词就是将连续的

字序列按照一定的规范重新组合成词序列的过程。众所周知，英文单词是用空格

来进行分隔的，在中文的字与字之间、句子与句子之间、段落与段落之间也都能

找到分界符。另外，在中英文中都存在短语划分这个问题，但是词与词之间却找

不到形式上的分界符。词是最小的能够独立活动的有意义的语言成分，因而，中

文在词的划分这个问题上是个非常巧杂而关键的问题。现有的分词算法可分为3

大类：基于字符串匹配的分词方法又称为机械分词方法，它是按照一定的策略将

待分析的汉字与一个＂足够大的＂词典中词条进行匹配，若在词典中找到某个字

符串，则匹配成功。按照扫描方向的不同，串匹配分词方法可分为正向匹配和逆

向匹配；按照不同长度优先匹配的倩况，可分为最大（最长）匹配和最小（最短）

匹配；按照是否与词性标注过程相姐合，又可分为单纯分词方法和分词与标注相

结合的一体化方法。常用的基于字符串匹配的分词方法有：A）正向最大匹配

法，按照文字的阅读顺序进行匹配；B）逆向最大匹配法，按照文字的阅读顺

序反向进行匹配；C）最小切分法，使每一句中切出的词数量最少。由于汉语

单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。正向最大匹配

法逆向匹配的切分精度略髙于正向匹配，遇到的歧义现象也较少。统计结果显示，

单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为

1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把

机械分词作为一种初分手段，还需要通过利用各种其它的语言信息来进一步提高

切分的准确率。上述方法虽然实现简单、速度快，但处理分词歧义能力较差，严

重依赖于词表，不能识别新词语，即未登录词。为了解决分词歧义与未登录词的

问题，９０年代初期出现了基于规则的分词系统，包括专家系统、短语结构文法

等。基于规则的＂演泽推理＂方法，能较好的解决有规律的分词歧义和未登录词，

具有一定的领域适应性、效率很髙。但中文语言现象非常复杂，存在很多无规律

的分词歧义和未登录词。因此一般采用其他算法如：动态规划等相结合提高准

确率。基于统计的分词方法只需对语料中的字信息进行统计，不需要切分词典，

因而又称为无词典分词法或统计取词法。从形式上看，词是稳定的字的组合，在

上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字

相邻共现的频率或概率能够较好的反映成词的可信度。因而可对语料中相邻共现

的各个字的组合的频度进行统计，计算它们的相关度，计算两个汉字Ａ、Ｂ的相

邻共现的概率。可对语料中相邻共现的各个字的组合的频率进行统计。这种方法

首先切分与词典能匹酷成功的所有可能的词，即找出所有候选词条，然后运用统

计语言模型和决策算法得出最优的切分结果。由于纯粹从统计的角度出发，因此

在统计意义上某些经常出现在一起

您可能关注的文档

文档评论（0）

nicechuntian + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

深度学习研究分析与总结.pdf