- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于CNN深度学习的自媒体文本分类方法的研究
?
?
祝亮
摘要:随着内容人工智能分发系统的不断成熟,各社交新媒体平台采用千人千面的分发机制,满足了广大用户的线下兴趣阅读需求,让不同年龄和阶层的人群都成为自媒体文章的消费者。在经济效益的驱动下,越来越多的团队和个人在内容创作上的持续增加投入,产生了巨量的自媒体文章。对自媒体文章的文本分类研究,在舆情监控、广告投放、情感分析和商业推荐上都有很重要的意义。用经典的文本分类方案来做自媒体文章分类,存在很多挑战。因此有必要对自媒体文章分类进行针对性的探究,为自媒体文章提供更好的文本分类器以满足进一步的应用。该文比较了经典的贝叶斯算法和基于深度学习的CNN算法在自媒体文章分类上的性能差异,并引入了word2vec/FastText/Glove等词向量工具来优化CNN算法,通过实验验证了这种优化带来的效果优势。
关键词:文本分类;CNN;深度学习;word2vec;FastText;GloVe;贝叶斯
:TP391???:A
:1009-3044(2021)21-0097-04
开放科学(资源服务)标识码(OSID):
1背景介绍
近年来,移动设备、大数据和人工智能不断向消费市场发展。大量的不同年龄不同阶层的用户,习惯于通过Web、H5、轻应用(包括小程序/快应用等)和App来获取信息,甚至进行重度学习。为了提高平台用户的黏性,各产品都采用了千人千面的智能推荐算法,主动给用户推送符合其兴趣口味的内容。这种智能内容推送机制,进一步解决了小众领域创作者的内容分发问题,刺激了作者的创作热情。这种分发机制激励了各垂直领域的创作者持续进场,持续产生了海量的自媒体文章。为了对这些海量的自媒体文章进行定量研究,需要对这些自媒体文章进行NLP处理,例如常见的主题模型分析、无监督的聚类和有监督的文本分类技术处理。
在这里我们主要研究自媒体文章的文本分类问题。自媒体文章的写作和内容与传统出版类媒体存在不小的差异。对于传统媒体来说,自媒体的内容有以下特点:1)语言平民化,多用描述性的语言来表示概念;2)时效性强,所有的受众都可以是内容的创作者,内容中也可能存在较多未曾收录的新词和所谓的“网络热词”和“梗”;3)内容中纯文本的成分可能很小,创作者用较多的表情、漫画图片等形式来表达情绪和观点,造成文字信息含量比较低;4)用语不够规范,可信性可能比较低,文章质量良莠不齐。
2遇到的挑战
由于这些业余的创作者并不全都经过新闻和写作训练,也没有专业的审稿把关内容,所以这些创作内容和传统新闻媒体文章的调性有很大差異。在传统的新闻文本中,使用经典的贝叶斯模型,加上一些语料选择和技术性的改进,已经可以训练出令人满意的分类器[1]。但在自媒体环境下,文本分类算法面对很多新的情况:水平参差不齐的创作者不断涌入导致文章质量良莠不齐;偏向使用更多尚未稳定收录的新词汇造成缺词问题;短文本的比例过大等。导致文本分类的分类算法和评估算法都要面临新的挑战。贝叶斯分类器抽取的分类特征一般是文本中的出现词汇,并认为一段文本的不同词汇的出现概率是满足条件独立性的假设的:词汇A出现的概率和词汇B出现的概率是相互独立的。这个独立性假设在自媒体文本中就存在比较严重的挑战。尽管有一些通过原词汇重新构建特征的方法来改善这个问题[2],但这样做会导致分类器的时间复杂度产生较大增幅。
另外,对于短文本的分类已经有了一些可行的解决方案。张志飞等人使用LDA模型来分类微博短文本[3],取得了比传统的VSM模型和基于主题相似度的模型更好的性能和效果。但其使用6步的方法去计算文本的相似度,在海量文章数据下会有一定程度的性能问题,对于口语化和不规范用语,也难以归一化处理。LDA的主要优点是可以处理语义相对明确的短文本,也可以处理文本篇幅较长的问题,而且是无监督的算法,可以处理大规模的文档集合和语料库[4]。但其问题是LDA方法采用了BoW词袋模型,没有考虑词和词之间的顺序关系。这种简化再加上无监督算法带来的不确定性,在实际的使用中也较难取得令人满意的结果。
从上面的分析中不难看出,对于灵活多变的自媒体内容,浅层学习建立的分类模型基础上的分类器,在自媒体文章场景下的运行性能虽然不错,但实际效果是非常局限的。在新闻文本内容分类任务上有极好表现的贝叶斯、SVM等浅层学习模型,在自媒体内容上的分类效果往往难以达到实用水平。本文研究基于深度学习的模型来解决自媒体文本分类中的若干挑战。
3深度学习和文本分类相关技术问题
3.1深度学习的优势
上文中我们提到,浅层学习建立的分类器在自媒体文本分类上的表现不够稳定。而深度学习方法可以在文本分类算法上提供一个全新的解决思路。
深度学习脱胎于机器学习的一个分支:人工神经网络(ANN)。人工神经网络最初是从生物
文档评论(0)