基于LSTM-Attention的中文新闻标题分类研究.pdf 64页

  • 0
  • 0
  • 0
  • 约6.51万字
  • 2020-08-13 发布

基于LSTM-Attention的中文新闻标题分类研究.pdf

文档工具:
    1. 1、本文档共64页,可阅读全部内容。
    2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
    3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
    4. 文档侵权举报电话:19940600175。
    摘要 摘 要 根据 2018 年 8 月中发布的《中国互联网络发展状况统计报告》显示,中国在 2018 年上半年的网民规模已经超过 8 亿水平,其中手机网民规模可占 98%之多,这 也意味着人们在移动互联网时代关于信息的获取偏好逐渐从传统互联网转向移动互 联网,人们对移动终端的偏好也越来越强。而关于中国网民对于各类互联网应用的 统计表明,有超过 6.6 亿近 83%的中国网民在生活中会使用网络新闻类应用,其使 用率高居所有应用类别的第二,仅次于即时通讯类应用。关于新闻行业的发展前景 较为广阔,如何在移动互联网时代末期将网络新闻相关技术与人工智能等前沿技术 结合,为用户呈现更好更有价值的内容,这是非常值得研究的一件事。 新闻是人们对时事、最新行业相关消息了解的重要途径,而新闻的信息分类有 助于实现新闻的有序化,对新闻文本进行挖掘,从而达到对决策供引导。由于新 闻分类本质上是一个文本分类问题,而且文本分类作为自然语言处理领域研究的一 个重要方向,所以至今为止,人们对新闻文本分类已经有大量的研究。目前大部分 文本分类问题都局限于使用常规的机器学习算法,所以对深度学习算法的研究应用 还比较有限,所以本文旨在研究这个方面的问题。 本文将新闻标题作为新闻分类的切入点,由于新闻标题属于文本中的短文本类 别,所以本文主要通过利用深度学习相关方法对新闻标题短文本进行分类,针对前 期分类出现过的问题,结合深度学习网络并引入最新的 Self-Attention 模型,解决 新闻分类以及短文本分类过程中的常见困难问题。 对于解决新闻标题分类这个具体问题,本文选用借助自注意力机制 Self- Attention 来处理 LSTM 的词向量输入序列并以此加强LSTM 的分类效果。对于实验 数据集,由于新闻标题中的可能总会出现一些新词,所以本文的数据集选择由 NLPCC 2017 Task2 Chinese News Headline 官方数据集与通过爬虫技术获取的近一 年今日头条、新浪等门户网站各类新闻标题组成的补充数据集组合而成。 通过实验后,本文模型在新闻标题分类问题上取得了较为不错的分类效果,相 较于常用短文本分类模型 Bi-LSTM,CNN-LSTM,LSTM-Attention 以及CNN- Attention,本文分类模型的对于中文新闻标题短文本的归类准确率最终达到了 85% 左右,也就是接近 86%的分类准确度的水平,总体来说还是有着不错的分类效果。 关键词:中文新闻标题;短文本分类;长短时记忆网络;自注意力机制 2 基于 LSTM-Attention 的中文新闻标题分类研究 Abstract According to the "Statistical Report on the Development of China's Internet Network" released in mid-August 2018, China's Internet users in the first half of 2018 have exceeded 800 million, of which mobile Internet users can account for 98%, which means people. In the era of mobile Internet, the preference for information acquisition has gradually shifted from the traditional Internet to the mobile Internet, and people's preferences for mobile terminals have become stronger. According to the statistics of Chinese Internet users on various Internet

    文档评论(0)

    • 内容提供方:136****6583
    • 审核时间:2020-08-13
    • 审核编号:5304123011002331

    相似文档