- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
深度学习研究分析与总结
过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉
任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理,
以及中文自然语言处理上,似乎没有太厉害的成果?尤其是中文短文本处理的问
题上,尚且没有太成功的应用于分布式条件下的深度处理模型?(大公司或许有,
但没有开源)本文暂且梳理一下,尝试围绕深度学习和短文本处理的方方面面
就最简单的概念进行一次梳理,并且试图思考一个问题:深度学习处理中文短文
本的最终效果是什么?我思考后的答案是:答:是一种模型,可以无需任何语言
学知识或手工特征设计,就可被用于中文分词、词性标注以及命名实体识别等多
种中文自然语言处理任务,甚至直接改造为分布式大数据可以使用的框架。姑
且认为200字以内的都叫短文本短文本具有特征稀疏性、奇异性、动态性、交
错性等特点①稀疏性。每条短文本形式信息的长度都比较短,都在200字以内,
因此所包含的有效信息也就非常少,造成样本的特征非常稀疏,并且特征集的维
数非常高,很难从中抽取到准确而关键的样本特征用于分类学习。②实时性。在
互联网上出现的短文本形式的信息,大部分都是实时更新的,刷新速度非常快,
聊天信息、微博信息、评论信息等,并且文本数量非常庞大。③不规则性。短文
本形式的信息用语不规范,包含流行词汇较多,造成了噪声特征非常多,如“94”
代表“就是”,“88”代表“再见”,“童鞋”代表“同学”,而且更新很快,如流
行词“伤不起”、“有没有”、“坑爹”“屌丝”、等等。中文分词就是将连续的
字序列按照一定的规范重新组合成词序列的过程。众所周知,英文单词是用空格
来进行分隔的,在中文的字与字之间、句子与句子之间、段落与段落之间也都能
找到分界符。另外,在中英文中都存在短语划分这个问题,但是词与词之间却找
不到形式上的分界符。词是最小的能够独立活动的有意义的语言成分,因而,中
文在词的划分这个问题上是个非常巧杂而关键的问题。现有的分词算法可分为3
大类:基于字符串匹配的分词方法又称为机械分词方法,它是按照一定的策略将
待分析的汉字与一个"足够大的"词典中词条进行匹配,若在词典中找到某个字
符串,则匹配成功。按照扫描方向的不同,串匹配分词方法可分为正向匹配和逆
向匹配;按照不同长度优先匹配的倩况,可分为最大(最长)匹配和最小(最短)
匹配;按照是否与词性标注过程相姐合,又可分为单纯分词方法和分词与标注相
结合的一体化方法。常用的基于字符串匹配的分词方法有:A)正向最大匹配
法,按照文字的阅读顺序进行匹配;B)逆向最大匹配法,按照文字的阅读顺
序反向进行匹配;C)最小切分法,使每一句中切出的词数量最少。由于汉语
单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。正向最大匹配
法逆向匹配的切分精度略髙于正向匹配,遇到的歧义现象也较少。统计结果显示,
单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为
1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把
机械分词作为一种初分手段,还需要通过利用各种其它的语言信息来进一步提高
切分的准确率。上述方法虽然实现简单、速度快,但处理分词歧义能力较差,严
重依赖于词表,不能识别新词语,即未登录词。为了解决分词歧义与未登录词的
问题,90年代初期出现了基于规则的分词系统,包括专家系统、短语结构文法
等。基于规则的"演泽推理"方法,能较好的解决有规律的分词歧义和未登录词,
具有一定的领域适应性、效率很髙。但中文语言现象非常复杂,存在很多无规律
的分词歧义和未登录词。因此一般采用其他算法如:动态规划等相结合提高准
确率。基于统计的分词方法只需对语料中的字信息进行统计,不需要切分词典,
因而又称为无词典分词法或统计取词法。从形式上看,词是稳定的字的组合,在
上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字
相邻共现的频率或概率能够较好的反映成词的可信度。因而可对语料中相邻共现
的各个字的组合的频度进行统计,计算它们的相关度,计算两个汉字A、B的相
邻共现的概率。可对语料中相邻共现的各个字的组合的频率进行统计。这种方法
首先切分与词典能匹酷成功的所有可能的词,即找出所有候选词条,然后运用统
计语言模型和决策算法得出最优的切分结果。由于纯粹从统计的角度出发,因此
在统计意义上某些经常出现在一起
您可能关注的文档
- “大”字类排比句100例.pdf
- 绿色出行倡议书.pdf
- 小学二年级描写早春的句子精彩集锦.pdf
- 象棋中卒的走法规则.pdf
- 市规划设计院工作总结3篇.pdf
- 采购业务流程及管理制度.pdf
- 2022年上期九年级一模测试 (语文)(含答案)234116.pdf
- 医院医保奖惩制度.pdf
- 权方和不等式简单形式证明.pdf
- 在机械厂实习报告4篇.pdf
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
最近下载
- 第三节 免疫分析仪器的维护_医疗设备维护概论_第四章 医用检验设备的维护.pptx
- 垃圾分类整治工作总结.pptx
- 2024年常见人力资源面试题库(通用7篇).pdf
- 《糟糕,身上长条纹了!》绘本故事PPT2套.pptx
- 25题规划发展岗位常见面试问题含HR问题考察点及参考回答.pdf
- 清华大学央企班组长远程培训自测题及答案(17门课合集).pptx
- 英语国家概况课后习题答案解析(完整版).doc
- 幼儿园 大班数学《美丽的对称图形》.pptx VIP
- 新视野大学英语(第三版)读写教程Section B-Too much of a good thing – A real addiction.ppt
- 2023年中小学教师职称考试试题含答案.docx
文档评论(0)