深度学习研究分析与总结.pdfVIP

下载本文档

0
0
约7.69千字
约 7页
2024-09-16 发布于中国
举报
版权申诉

深度学习研究分析与总结.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度学习研究分析与总结--第1页

深度学习研究分析与总结

过去几年，深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉

任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理，

以及中文自然语言处理上，似乎没有太厉害的成果？尤其是中文短文本处理的问

题上，尚且没有太成功的应用于分布式条件下的深度处理模型？（大公司或许有，

但没有开源）本文暂且梳理一下，尝试围绕深度学习和短文本处理的方方面面

就最简单的概念进行一次梳理，并且试图思考一个问题：深度学习处理中文短文

本的最终效果是什么？我思考后的答案是：答：是一种模型，可以无需任何语言

学知识或手工特征设计，就可被用于中文分词、词性标注以及命名实体识别等多

种中文自然语言处理任务，甚至直接改造为分布式大数据可以使用的框架。姑

且认为200字以内的都叫短文本短文本具有特征稀疏性、奇异性、动态性、交

错性等特点①稀疏性。每条短文本形式信息的长度都比较短，都在200字以内，

因此所包含的有效信息也就非常少，造成样本的特征非常稀疏，并且特征集的维

数非常高，很难从中抽取到准确而关键的样本特征用于分类学习。②实时性。在

互联网上出现的短文本形式的信息，大部分都是实时更新的，刷新速度非常快，

聊天信息、微博信息、评论信息等，并且文本数量非常庞大。③不规则性。短文

本形式的信息用语不规范，包含流行词汇较多，造成了噪声特征非常多，如“94”

代表“就是”，“88”代表“再见”，“童鞋”代表“同学”，而且更新很快，如流

行词“伤不起”、“有没有”、“坑爹”“屌丝”、等等。中文分词就是将连续的

字序列按照一定的规范重新组合成词序列的过程。众所周知，英文单词是用空格

来进行分隔的，在中文的字与字之间、句子与句子之间、段落与段落之间也都能

找到分界符。另外，在中英文中都存在短语划分这个问题，但是词与词之间却找

深度学习研究分析与总结--第1页

深度学习研究分析与总结--第2页

不到形式上的分界符。词是最小的能够独立活动的有意义的语言成分，因而，中

文在词的划分这个问题上是个非常巧杂而关键的问题。现有的分词算法可分为3

大类：基于字符串匹配的分词方法又称为机械分词方法，它是按照一定的策略将

待分析的汉字与一个＂足够大的＂词典中词条进行匹配，若在词典中找到某个字

符串，则匹配成功。按照扫描方向的不同，串匹配分词方法可分为正向匹配和逆

向匹配；按照不同长度优先匹配的倩况，可分为最大（最长）匹配和最小（最短）

匹配；按照是否与词性标注过程相姐合，又可分为单纯分词方法和分词与标注相

结合的一体化方法。常用的基于字符串匹配的分词方法有：A）正向最大匹配

法，按照文字的阅读顺序进行匹配；B）逆向最大匹配法，按照文字的阅读顺

序反向进行匹配；C）最小切分法，使每一句中切出的词数量最少。由于汉语

单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。正向最大匹配

法逆向匹配的切分精度略髙于正向匹配，遇到的歧义现象也较少。统计结果显示，

单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为

1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把

机械分词作为一种初分手段，还需要通过利用各种其它的语言信息来进一步提高

切分的准确率。上述方法虽然实现简单、速度快，但处理分词歧义能力较差，严

重依赖于词表，不能识别新词语，即未登录词。为了解决分词歧义与未登录词的

问题，９０年代初期出现了基于规则的分词系统，包括专家系统、短语结构文法

等。基于规则的＂演泽推理＂方法，能较好的解决有规律的分词歧义和未登录词，

具有一定的领域适应性、

您可能关注的文档

文档评论（0）

精品文档 + 关注: 实名认证

文档贡献者

从事一线教育多年具有丰富的教学经验

咨询Ta 进入空间

1亿VIP精品文档

更多 >

深度学习研究分析与总结.pdfVIP