电网文档分类技术基于循环注意力机制的文档快速扫描定性方法.docxVIP

  • 2
  • 0
  • 约2.91千字
  • 约 8页
  • 2023-11-24 发布于未知
  • 举报

电网文档分类技术基于循环注意力机制的文档快速扫描定性方法.docx

[全]电网文档分类技术-基于循环注意力机制的文档快速扫描定性方法 自然语言处理(NLP)技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。目前NLP最流行的方法还是机器学习尤其是深度学习,比如Word Embedding(词嵌入)、RNN(循环神经网络)、LSTM(长短期记忆网络)、CNN(卷积神经网络)等主流的深度神经网络在NLP中的应用,这已经是目前主流的研究方向。目前,在文档定性分类方面,最经典的结构就是CNN(卷积神经网络),它的结构比较简单,使用长度不同的filter(滤波器)对文档矩阵进行卷积,filter的宽度等于词向量的长度,然后使用max-pooling(最大池化)对每一个filter提取的向量进行操作,最后每一个filter对应一个数字,把这些filter拼接起来,就得到了一个表征该句子的向量,最后的预测都是基于该句子的。该模型作为一个经典的模型,是很多其他领域论文里的实验参照。 但是对于文档定性,比如CNN(卷积神经网络)、LSTM(长短期记忆网络)等方法,大多数适用于短文档。但对于长文档,这些方法会导致模型变得非常庞大,并不适用。用关键词方法检索敏感信息,这种方法需要对全文进行检索,准确性不高,效率低下,缺乏了上下文的关联性,并且有些关键词并不主导文档的主要性质。 问题拆分 获取训练数据集,

文档评论(0)

1亿VIP精品文档

相关文档