- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
深度学习研究分析与总结--第1页
深度学习研究分析与总结
过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉
任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理,
以及中文自然语言处理上,似乎没有太厉害的成果?尤其是中文短文本处理的问
题上,尚且没有太成功的应用于分布式条件下的深度处理模型?(大公司或许有,
但没有开源)本文暂且梳理一下,尝试围绕深度学习和短文本处理的方方面面
就最简单的概念进行一次梳理,并且试图思考一个问题:深度学习处理中文短文
本的最终效果是什么?我思考后的答案是:答:是一种模型,可以无需任何语言
学知识或手工特征设计,就可被用于中文分词、词性标注以及命名实体识别等多
种中文自然语言处理任务,甚至直接改造为分布式大数据可以使用的框架。姑
且认为200字以内的都叫短文本短文本具有特征稀疏性、奇异性、动态性、交
错性等特点①稀疏性。每条短文本形式信息的长度都比较短,都在200字以内,
因此所包含的有效信息也就非常少,造成样本的特征非常稀疏,并且特征集的维
数非常高,很难从中抽取到准确而关键的样本特征用于分类学习。②实时性。在
互联网上出现的短文本形式的信息,大部分都是实时更新的,刷新速度非常快,
聊天信息、微博信息、评论信息等,并且文本数量非常庞大。③不规则性。短文
本形式的信息用语不规范,包含流行词汇较多,造成了噪声特征非常多,如“94”
代表“就是”,“88”代表“再见”,“童鞋”代表“同学”,而且更新很快,如流
行词“伤不起”、“有没有”、“坑爹”“屌丝”、等等。中文分词就是将连续的
字序列按照一定的规范重新组合成词序列的过程。众所周知,英文单词是用空格
来进行分隔的,在中文的字与字之间、句子与句子之间、段落与段落之间也都能
找到分界符。另外,在中英文中都存在短语划分这个问题,但是词与词之间却找
深度学习研究分析与总结--第1页
深度学习研究分析与总结--第2页
不到形式上的分界符。词是最小的能够独立活动的有意义的语言成分,因而,中
文在词的划分这个问题上是个非常巧杂而关键的问题。现有的分词算法可分为3
大类:基于字符串匹配的分词方法又称为机械分词方法,它是按照一定的策略将
待分析的汉字与一个"足够大的"词典中词条进行匹配,若在词典中找到某个字
符串,则匹配成功。按照扫描方向的不同,串匹配分词方法可分为正向匹配和逆
向匹配;按照不同长度优先匹配的倩况,可分为最大(最长)匹配和最小(最短)
匹配;按照是否与词性标注过程相姐合,又可分为单纯分词方法和分词与标注相
结合的一体化方法。常用的基于字符串匹配的分词方法有:A)正向最大匹配
法,按照文字的阅读顺序进行匹配;B)逆向最大匹配法,按照文字的阅读顺
序反向进行匹配;C)最小切分法,使每一句中切出的词数量最少。由于汉语
单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。正向最大匹配
法逆向匹配的切分精度略髙于正向匹配,遇到的歧义现象也较少。统计结果显示,
单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为
1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把
机械分词作为一种初分手段,还需要通过利用各种其它的语言信息来进一步提高
切分的准确率。上述方法虽然实现简单、速度快,但处理分词歧义能力较差,严
重依赖于词表,不能识别新词语,即未登录词。为了解决分词歧义与未登录词的
问题,90年代初期出现了基于规则的分词系统,包括专家系统、短语结构文法
等。基于规则的"演泽推理"方法,能较好的解决有规律的分词歧义和未登录词,
具有一定的领域适应性、
您可能关注的文档
- 管线改迁施工方案.pdf
- 七年级政治的知识点.pdf
- 粤教粤科版小学科学三年级下册科学第三单元测试卷(含答案).pdf
- 学校工会2023年工作总结模板.pdf
- 系统管理员个人工作述职报告3篇.pdf
- 人教版七年级下册地理第七章我们邻近的地区和国家复习课说课稿.pdf
- 2023年辽宁省鞍山市中考生物一模试卷+答案解析.pdf
- 2023年江苏省盐城市建湖县海南中学中考数学仿真试卷+答案解析.pdf
- 2023年江苏省苏州市中考数学考前模拟预测卷+答案解析.pdf
- 2023年江苏省苏州中学园区校中考数学二模试卷+答案解析.pdf
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
最近下载
- 第三节 免疫分析仪器的维护_医疗设备维护概论_第四章 医用检验设备的维护.pptx
- 垃圾分类整治工作总结.pptx
- 2024年常见人力资源面试题库(通用7篇).pdf
- 《糟糕,身上长条纹了!》绘本故事PPT2套.pptx
- 25题规划发展岗位常见面试问题含HR问题考察点及参考回答.pdf
- 清华大学央企班组长远程培训自测题及答案(17门课合集).pptx
- 英语国家概况课后习题答案解析(完整版).doc
- 幼儿园 大班数学《美丽的对称图形》.pptx VIP
- 新视野大学英语(第三版)读写教程Section B-Too much of a good thing – A real addiction.ppt
- 2023年中小学教师职称考试试题含答案.docx
文档评论(0)