- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于深度学习的文本分类综述
摘要:随着互联网的不断发展,网络上的文本数据日益增多,如果能对这些数据进行有效分类,那么更有利于从中挖掘出有价值的信息,因此文本数据的管理和整合显得十分重要。文本分类是自然语言处理任务中的一项基础性工作,主要应用于舆情检测及新闻文本分类等领域,目的是对文本资源进行整理和归类。基于深度学习的文本分类,在对文本数据处理中,表现出较好的分类效果。本文对用于文本分类的深度学习算法进行详细阐述,按照深度学习的不同算法进行分类,并分析各种算法的特点,最后对深度学习算法在文本分类领域的未来研究方向进行总结。
0引言机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,是人工智能的核心,是使计算机具有智能的根本途径。机器学习主要应用在计算机视觉与自然语言处理等方面中,其中自然语言处理中的文本分类是近几年的研究热点近年来,国内外学者对文本分类问题做了许多的探索和研究,主要包括传统的机器学习算法和深度学习算法。基于机器学习的文本分类主要包括文本表示、特征选择和构造分类器。文本表示的主要方法有布尔模型(Boolean Model)、概率模型(Probabilistic Model)和向量空间模型(Vector Space Model)。特征选择的方法主要为:特征频率、文档频率、信息增益、互信息、CHI统计、期望交叉熵、文本证据权、优势率、低损降维法和频率差法等基于机器学习的文本分类方法忽略了词与词之间的关系以及句子和句子间的关系,对高维数据的处理和泛化能力都比较差。在2006年,Hinton等人1基于深度学习的文本分类深度学习(Deep Learning)作为机器学习的分支,主要利用包含复杂结构或由多隐层感知器构成的多个处理层对数据进行高层抽象,从而取代手工获取文本特征。基于深度学习的文本分类主要利用深度学习模型的自动获取特征表达能力,替代传统方法中复杂的人工特征工程,提高分类的效率。深度学习模型用于文本分类的主要过程有文本预处理、文本表示、构建深度学习模型和性能评价等步骤,如图1所示。2数据集的选择数据集的选择对文本分类实验结果有着重要的影响,目前文本分类常用的开源数据集如下:1) Amazon Review Dataset包含数百万条亚马逊客户评论和星级评定,该数据集主要用来了解如何训练FastText用于情感分析。2) IMDB数据集包含用于自然语言处理或文本分析的5万条影评,包括用于训练的25000条观点鲜明的影评和用于测试的25000条影评,该数据集是用于文本分类中使用率最高的数据集,所有的深度学习模型都可使用。3) NLPCC2013是微博语料,标注了7种心情,共有14000条微博,45431个句子,在情感分析中经常使用。4) 20Newsgroups包含20组不同主题的英文新闻数据,主要用于英文新闻分类研究。5) SST-1为情感分类数据集,包含11800条电影评论语句,有非常积极、积极、中性、消极和非常消极5类。目前,该数据集在S-LSTM6) Yelp数据集可用于个人、教育和学术等用途,它是Yelp的小部分商家、评论和用户数据,在自然语言处理中可用于推断语义、商户属性和情感。3文本预处理和文本表示3.1文本预处理文本预处理是从文本中提取关键词来表示文本的处理过程,文本预处理根据语言不同分为中文文本预处理和英文文本预处理。英文文本预处理主要对英文进行分词,其步骤为根据空格拆分单词、删除停用词、词干提取或词元化。Martin在1980年提出的波特词干提取算法中文文本预处理通常要经过分词、去除停用词、低频词过滤等过程。分词的方法有隐马尔科夫模型(HMM)3.2文本表示文本表示是文本分类的基础,要将自然语言处理问题转化成机器可学习的数学模型,首先要对词和文本进行向量化建模。传统文本表示主要使用布尔模型、概率模型和向量空间模型,忽略了词语间语义关系,存在数据高维稀疏问题Word2vec是谷歌在2013年发布的词向量训练工具,能够从大规模未经标注的语料中高效地生成词的向量形式,并提供了CBOW和Skip-gram这2种模型4深度学习模型基于深度学习的文本分类中,将经过文本预处理和文本表示的数据集,输入到深度学习模型中,最后使用Softmax进行分类,完成文本分类。4.1基于CNN的文本分类Kim算法1基于CNN算法的文本分类。输入:无标签的数据集D,训练集D-train,测试集D-test。输出:测试集的情感标签。1.将训练集和测试集中的数据进行预处理。2.通过初始化Word2vec的参数,获取模型,并且得到所有词汇的词向量。3.初始化CNN的参数,训练
您可能关注的文档
- 基于互联网+大赛的大学生创新创业教育模式探索.docx
- 基于机器学习LSTM网络的SO.docx
- 基于机器学习算法的石油钻速研究.docx
- 基于技能大赛的工业分析技术专业实训教学改革——以榆林职业技术学院为例.docx
- 基于交叉学科实践的药学专业创新人才培养新模式——以药物化学生物学第二课堂实践为例.docx
- 基于教师日常行为视角的大学城孤岛化研究——以济南长清大学城为例.docx
- 基于卷积神经网络和迁移学习的电动泵故障诊断方法研究.docx
- 基于决策树的SM4分组密码工作模式识别.docx
- 基于科研平台六好理念研究生创新能力的培养实践.docx
- 基于劳动教育培养新时代邮政人才的研究与实践.docx
原创力文档


文档评论(0)