基于CNN深度学习的自媒体文本分类方法的研究.docx

下载文档

0
0
约2.36千字
约 6页
2024-09-10 发布于湖北
举报
版权申诉
保障服务

基于CNN深度学习的自媒体文本分类方法的研究.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于CNN深度学习的自媒体文本分类方法的研究

祝亮

摘要：随着内容人工智能分发系统的不断成熟，各社交新媒体平台采用千人千面的分发机制，满足了广大用户的线下兴趣阅读需求，让不同年龄和阶层的人群都成为自媒体文章的消费者。在经济效益的驱动下，越来越多的团队和个人在内容创作上的持续增加投入，产生了巨量的自媒体文章。对自媒体文章的文本分类研究，在舆情监控、广告投放、情感分析和商业推荐上都有很重要的意义。用经典的文本分类方案来做自媒体文章分类，存在很多挑战。因此有必要对自媒体文章分类进行针对性的探究，为自媒体文章提供更好的文本分类器以满足进一步的应用。该文比较了经典的贝叶斯算法和基于深度学习的CNN算法在自媒体文章分类上的性能差异，并引入了word2vec/FastText/Glove等词向量工具来优化CNN算法，通过实验验证了这种优化带来的效果优势。

关键词：文本分类;CNN;深度学习;word2vec;FastText;GloVe;贝叶斯

：TP391???：A

：1009-3044（2021）21-0097-04

开放科学（资源服务）标识码（OSID）：

1背景介绍

近年来，移动设备、大数据和人工智能不断向消费市场发展。大量的不同年龄不同阶层的用户，习惯于通过Web、H5、轻应用（包括小程序/快应用等）和App来获取信息，甚至进行重度学习。为了提高平台用户的黏性，各产品都采用了千人千面的智能推荐算法，主动给用户推送符合其兴趣口味的内容。这种智能内容推送机制，进一步解决了小众领域创作者的内容分发问题，刺激了作者的创作热情。这种分发机制激励了各垂直领域的创作者持续进场，持续产生了海量的自媒体文章。为了对这些海量的自媒体文章进行定量研究，需要对这些自媒体文章进行NLP处理，例如常见的主题模型分析、无监督的聚类和有监督的文本分类技术处理。

在这里我们主要研究自媒体文章的文本分类问题。自媒体文章的写作和内容与传统出版类媒体存在不小的差异。对于传统媒体来说，自媒体的内容有以下特点：1）语言平民化，多用描述性的语言来表示概念;2）时效性强，所有的受众都可以是内容的创作者，内容中也可能存在较多未曾收录的新词和所谓的“网络热词”和“梗”;3）内容中纯文本的成分可能很小，创作者用较多的表情、漫画图片等形式来表达情绪和观点，造成文字信息含量比较低;4）用语不够规范，可信性可能比较低，文章质量良莠不齐。

2遇到的挑战

由于这些业余的创作者并不全都经过新闻和写作训练，也没有专业的审稿把关内容，所以这些创作内容和传统新闻媒体文章的调性有很大差異。在传统的新闻文本中，使用经典的贝叶斯模型，加上一些语料选择和技术性的改进，已经可以训练出令人满意的分类器[1]。但在自媒体环境下，文本分类算法面对很多新的情况：水平参差不齐的创作者不断涌入导致文章质量良莠不齐;偏向使用更多尚未稳定收录的新词汇造成缺词问题;短文本的比例过大等。导致文本分类的分类算法和评估算法都要面临新的挑战。贝叶斯分类器抽取的分类特征一般是文本中的出现词汇，并认为一段文本的不同词汇的出现概率是满足条件独立性的假设的：词汇A出现的概率和词汇B出现的概率是相互独立的。这个独立性假设在自媒体文本中就存在比较严重的挑战。尽管有一些通过原词汇重新构建特征的方法来改善这个问题[2]，但这样做会导致分类器的时间复杂度产生较大增幅。

另外，对于短文本的分类已经有了一些可行的解决方案。张志飞等人使用LDA模型来分类微博短文本[3]，取得了比传统的VSM模型和基于主题相似度的模型更好的性能和效果。但其使用6步的方法去计算文本的相似度，在海量文章数据下会有一定程度的性能问题，对于口语化和不规范用语，也难以归一化处理。LDA的主要优点是可以处理语义相对明确的短文本，也可以处理文本篇幅较长的问题，而且是无监督的算法，可以处理大规模的文档集合和语料库[4]。但其问题是LDA方法采用了BoW词袋模型，没有考虑词和词之间的顺序关系。这种简化再加上无监督算法带来的不确定性，在实际的使用中也较难取得令人满意的结果。

从上面的分析中不难看出，对于灵活多变的自媒体内容，浅层学习建立的分类模型基础上的分类器，在自媒体文章场景下的运行性能虽然不错，但实际效果是非常局限的。在新闻文本内容分类任务上有极好表现的贝叶斯、SVM等浅层学习模型，在自媒体内容上的分类效果往往难以达到实用水平。本文研究基于深度学习的模型来解决自媒体文本分类中的若干挑战。

3深度学习和文本分类相关技术问题

3.1深度学习的优势

上文中我们提到，浅层学习建立的分类器在自媒体文本分类上的表现不够稳定。而深度学习方法可以在文本分类算法上提供一个全新的解决思路。

深度学习脱胎于机器学习的一个分支：人工神经网络（ANN）。人工神经网络最初是从生物

您可能关注的文档

文档评论（0）

151****0181 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于CNN深度学习的自媒体文本分类方法的研究.docx